文心一言比 chatgpt 差的不是一星半点

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 384 天前的主题，其中的信息可能已经有所发展或是发生改变。

昨天心血来潮想试试文心一言的体验怎么样，随便问了一个问题：香港的面积多大？结果回答完问题来了一句香港是中国的领土等等，我问我只是问个面积为什么要加最后一句啊，回答说要强调之类云云的（忘了截图了）。一个地理问题生生弄成了政治题。我换成 chatgpt 后，人家老老实实的问什么回答什么，即使后来问了一个关于钓鱼岛的问题，哪个国家的理由更合理一些也回答的不偏不倚。一比较发现，文心一言这帮人的格局不是一般的小。

失望

跑题

格局

75 条回复 2024-11-11 21:21:00 +08:00

NotLongNil

2024-11-09 12:57:10 +08:00 via iPhone

你连原因都没搞明白啊……是百度的人希望做成这样的吗？在中国哪个 AI 上线前不用经过一轮政治考试，你问的这些问题的答案哪个不是在上线前就被审过一次，得骂对人啊

zuosiruan

2024-11-09 13:05:05 +08:00

一楼已经说的很好了。格局小的不是文心一言。

ztm0929

2024-11-09 13:05:17 +08:00 via iPhone

@NotLongNil 虽然确实要审查，但是百度的技术力确实不如人也是事实。你站在中国大陆以外的视角问 ChatGPT 它总能尽可能中立。

回到问题本身，从训练效率的角度来讲就是百度图快偷懒而已…（它们也许暂时不愿意在安全策略方面花精力，才会出现这种完全无关的回答

NotLongNil

2024-11-09 13:18:57 +08:00 via iPhone

@ztm0929 首先，百度的技术不差的，跟 chatgpt 比是有差距，但你是跟世界第一比啊，谷歌也没搞过 chatgpt 。然后，你可以在网上找下他们是怎么审查的，有没有可能百度已经努力过？它现在的答案，就是那种最安全，不会被人骂的那种，除了被人骂它能力不行。作为一个中国的商业公司，被人骂不行，总好过不正确

laikicka

2024-11-09 13:19:21 +08:00

文明洼地是这样的

NotLongNil

2024-11-09 13:22:05 +08:00 via iPhone

@ztm0929 我们抵制百度是因为它价值观有问题，但不是它技术不行，

pauluswanggang

2024-11-09 13:25:38 +08:00 via iPhone

@NotLongNil 百度努力没努力过咱是不知道，但是知道他们努力过竞价排名，不是一般的努力

pauluswanggang

2024-11-09 13:28:50 +08:00 via iPhone

只希望果子机国内 AI 千万别用他家的

jaio1

2024-11-09 13:32:30 +08:00

百度一下：三好学生是哪三好

NotLongNil

2024-11-09 13:34:15 +08:00 via iPhone

@pauluswanggang 我本人是抵制百度的，巴不得它倒闭，但 AI 这事，骂它没用。

ztm0929

2024-11-09 13:35:58 +08:00 via iPhone

@NotLongNil 你误解我的意思了，我没有评价回答质量（事实上我也不懂具体如何评测，网上倒是有很多指标测评）。

我是指 OP 提到的这个场景，为了“防越狱”（这里是领土争议，但其实还有很多，杀人方法、制作爆炸品、巴以冲突、俄乌战争、LGBT 、人权问题等等各种争议）而采取的安全策略，相对来说，OpenAI 和微软会更加谨慎。而主题里提到的情况，明显就是图省事，“我猜这人等会问些乱七八糟的问题，我直接塞一堆特定话语让机器照读就完事了”

我还真没怎么搜索到百度对生成式 AI 的一些报告，这里附上微软的“负责任的 AI”解读供参考（“正确”与否见仁见智）
https://learn.microsoft.com/zh-cn/azure/machine-learning/concept-responsible-ai

不过我也赞成你说的，百度的技术实力并不差（其实是无数科学家、工程师、程序员的付出），只是决策层有自己一贯的“取巧”态度罢了

全世界的商业公司核心都是一样“搞钱”，但是我发现似乎中国的头部公司为了追求速度，其他的都不是特别介意…

NoOneNoBody

2024-11-09 13:48:47 +08:00

这贴子也是瞬间分出两个方向，都一样

zhangeric

2024-11-09 13:53:57 +08:00

建议楼主问一下 chatgpt 涉及到美国的政治问题嘛,至少这样才公平啊

Liftman

2024-11-09 13:58:23 +08:00

chatgpt 的模型的调试目标是，准确，专业，逻辑推理。

文心一言的调试目标是，绝对不要犯错。

基本上国际上的基准测试都是数学，编码，物理化为主。。

文心一言的测试是，历年中文讽刺梗。

而且你们想想。。百度做搜索，ai ，自动驾驶，都是最早的。

但是现在百度。搜索=shit 。ai=shit 。自动驾驶=？。

所以这个公司干啥啥不行不是没原因的。又不是起步晚。

但是反观国产模型几个开源的，其实做的还不错的。虽然很多是靠基准刷的。拟合一点。但是好歹有努力的。

paradoxs

2024-11-09 13:58:28 +08:00

chatgpt 回答中国法律的问题，还是差的很远。

https://imgur.com/AGtYejf

这个题目的答案是 AC 。

大家可以去试下国内的 AI ，回答的情况好很多。题目高清图： https://imgur.com/xNfhK8z

niubee1

2024-11-09 13:59:10 +08:00

你去 chatgpt 上问问关于犹太人的问题试试

PositionZero

2024-11-09 14:04:10 +08:00

OP 试试豆包的回复，审查更严

https://i.imgur.com/a/fCykohb.jpg

lambdaX999

2024-11-09 14:04:32 +08:00

你去问下魏则西为什么死的

PositionZero

2024-11-09 14:05:11 +08:00

pauluswanggang

2024-11-09 14:15:31 +08:00

@zhangeric #13 这个也问了，这次截图了

，我虽然讨厌 LGBT ，但回答起码没让我反感，没有明确的摇旗呐喊吧

NotLongNil

2024-11-09 14:21:55 +08:00 via iPhone

@ztm0929 我上面确实误会了你的意思。你说的是对的。全世界的公司都是为了赚钱，其他国家的公司多少会要点脸面，因为消费者真的会因为一家公司的价值观而决定是否购买它的产品，但是在中国，情况却不是这样，这可以说是我们整个社会的纵容导致的

zhangeric

2024-11-09 14:23:04 +08:00

@pauluswanggang #20 此内容可能违反了我们的使用政策.

pauluswanggang

2024-11-09 14:24:28 +08:00

还有

这个至少没有踩一捧一吧

pauluswanggang

2024-11-09 14:31:45 +08:00

@zhangeric #22 虽然有这个提示但还是回答了，也没有那么的明显站队吧

pauluswanggang

2024-11-09 14:32:18 +08:00

BAT 中这个 B 声名最差吧？

zhangeric

2024-11-09 14:34:36 +08:00

@pauluswanggang #24 两个公司都有在搞政治审查,何必捧一个踩一个呢?

zmqking

2024-11-09 14:56:34 +08:00

@pauluswanggang 你说的 ByteDance 吗？

googlefans

2024-11-09 15:16:07 +08:00

百度 AI 如果搞不好基本就离玩玩不远了

walkbox

2024-11-09 15:17:11 +08:00

百毒扭头就跑

utc76

2024-11-09 15:26:46 +08:00

@PositionZero #19 笑死

zhangtw2024

2024-11-09 15:30:24 +08:00 via iPad

齐心一言

yukino

2024-11-09 15:54:36 +08:00

为啥要用文心一言呢？是开源的 QWEN2.5 不好用吗

sfdev

2024-11-09 15:57:22 +08:00

你用 AI 问这些狗屁倒灶的事想得到什么答案？ AI 是用来干这些的？

Censhuang

2024-11-09 16:05:25 +08:00

跟 ai 聊政治问题既愚蠢又可笑，ai 是帮人的，不是跟你聊政治的。

zaizaizai2333

2024-11-09 16:08:38 +08:00

钓鱼岛可能是中国和琉球的争议领土，但绝对不属于日本。

GPT 只要没有提到这一点。就是意识形态入心、入脑、入魂。

shenyiyouge

2024-11-09 16:14:27 +08:00

@ztm0929 #3 "百度的技术力确实不如人也是事实"不知道你哪来的事实

shenyiyouge

2024-11-09 16:16:42 +08:00

@pauluswanggang #7 不知道你多大了,还是保持独立思考的能力吧,国内哪家搜索引擎没有竞价排名?只不过百度独大,其他的要么没人用要么没听说过,没人提就算提了你也未必记住罢了

exploreexe

2024-11-09 16:18:44 +08:00

GPT 也会审查只是没有像我们这样需要审查更多的内容，光在审查这块，我们国内真的可以说是遥遥领先。
敏感词堪比清朝文字狱了吧

shenyiyouge

2024-11-09 16:18:51 +08:00

@Liftman 嗯嗯对,好坏都是你说了算,当代判官

otakustay

2024-11-09 16:19:58 +08:00

那你要不要看看 ChatGPT 在说什么

shenyiyouge

2024-11-09 16:22:27 +08:00

@sfdev 他这种人不适合用 ai,特地针对弱点测试,世界上总没有完美的东西.

yukino

2024-11-09 16:23:58 +08:00

@exploreexe 看来是你问 GPT 的内容在当地不够敏感

zictos

2024-11-09 16:29:05 +08:00

文星一言上问一些国内的事物可能答案更好，而且可以回答一些比较新的事物的相关问题，反正我是偶尔在用。
chatgpt 和文心一言交替用，大部分时候是 chatgpt 优先，但有时候会明确预判文心一言的答案可能更好就优先使用文心一言，也可能两者同时提问。不过编程方面的问题肯定不会用文心一言。

fuchaofather

2024-11-09 17:28:53 +08:00

@laikick 赶紧滚吧，傻逼玩意儿，为什么用洼地的文字语言？

laikicka

2024-11-09 17:34:36 +08:00

@fuchaofather 素质/见识都太差了. 简体中文不止国内会用好吗.

ajyz

2024-11-09 17:39:03 +08:00

除了本身技术问题、训练内容等局限外，其实很多人瞧不上的是信息搜索都要跟政治挂钩，这就注定又是一张“局域网”

ztm0929

2024-11-09 18:53:51 +08:00 via iPhone

@shenyiyouge 抱歉让你误解了，我自己也反思了，我收回“技术不如人”的草率措辞，但就 OP 主题提到的情况，（为了少做些安全策略直接在训练方法上粗暴简化，进而产生无关回答的情况）我依然认为百度决策层偷懒取巧。

我无意攻击或批评任何百度公司里的任何个人，我自己也有几个在百度工作的朋友，如果之前的话冒犯到你了请见谅。

rxswift

2024-11-09 19:50:05 +08:00

文言一心虽然烂，但在国内保二争一没问题吧

failman

2024-11-09 20:19:05 +08:00

国内比较强一点的大模型大伙有推荐的吗

jlkm2010

2024-11-09 20:30:36 +08:00

@failman 字节的豆包，阿里的通义，华为的盘古

Liftman

2024-11-09 20:32:18 +08:00

@shenyiyouge 是魏则西欠你钱，还是拿了李彦宏的钱？为百度说话有瘾吗？我 chatgpt 和 claude 会员都有。每个月 api 接口费都比你打的字多了。。。喜欢跪着就跪着吧。要不去跳个中字舞？

Liftman

2024-11-09 20:34:54 +08:00

@failman https://lmarena.ai/ 看看 llm arena 的排名就行了。。。靠前的模型版本大部分人也跑不动的。。常规的话。用用千问 7b 8b 、零一万物、deepseek 都很不错。而且还要看具体需求，如果是多模态识图之类的，就是另外几个了。

crackidz

2024-11-09 20:39:42 +08:00

大家审核在不同的地方上而已

国内大家都知道审核在哪里也知道为什么，chatgpt 审核在哪里你试试就知道了...

shenyiyouge

2024-11-09 20:44:06 +08:00 via iPhone

@Liftman 拉黑了拜拜

XnEnokq9vkvVq4

2024-11-09 22:15:56 +08:00

当下国产最好的是 deepseek v2.5 、qwen2.5 、chatglm-4-plus 、yi-lightning
前两个是开源模型（无审查但存在语料层面的“污染”或者说比较强烈的 alignment ）。后两个审查严重

cowcomic

2024-11-09 22:47:48 +08:00

我们的技术就应该有我们的意识形态，没毛病

pauluswanggang

2024-11-09 23:18:51 +08:00

@cowcomic #56 我觉得独立思考的能力比较重要

cowcomic

2024-11-09 23:22:02 +08:00

@pauluswanggang 这两者不冲突，独立思考能力是个人的，意识形态是产品的，两者可以同时拥有

frankilla

2024-11-09 23:51:09 +08:00 via iPhone

@laikick 你除了刷这句还有别的吗？可不洼地吗，洼出来个你，。

crownor

2024-11-10 00:01:00 +08:00

@pauluswanggang 你说的这种“独立思考”，包括“独立”地去思考一下 GPT 在意识形态上的问题了么？安全和技术是应当同时考虑的，世界不存在所谓的“XX 无国界”，不信的话可以问问 Linus 到底有没有国界和意识形态

adgfr32

2024-11-10 01:09:02 +08:00

@ztm0929 "政治相关尽可能中立的话" 在国内就是不被允许的, 忠诚不绝对就是绝对不忠诚, 某些词提都不能提.
另外部分用户很二逼, 经常会故意问一些带陷阱的话, 然后截个图放网上, 闹大了你公司就无了. 很大程度文心一言这样敏感的说 "香港是中国的领土" 就是被这种用户整过, 干脆阉割自己了.
gpt, 相对比较敏感的是儿童色情这种, 政治的很宽松.

stimw

2024-11-10 01:24:38 +08:00 via Android

国内外大厂 ai 都有自己地区的内容审查，只是倾向不同。我发现涉及到这种话题，很多人没办法比较客观地讨论，只是在输出情绪。一边说自己讨厌 xx ，一边自己又在输出 xx 。

solitude1942

2024-11-10 01:57:15 +08:00

你对国内政府的言论审查力度的想象力太少了，64 之类的时候互联网平台连点赞数评论数都不能是特殊数字

idragonet

2024-11-10 08:47:26 +08:00

我开了 GPT PLUS 都懒得用了，现在主力是 Claude-3.5 ！国内 AI 就是笑话。

hoopan

2024-11-10 10:17:57 +08:00

AI 技术差距慢慢被抹平了，根据自己需求选择就行了。国内 AI 必然会被政审的，问这类敏感话题结果肯定差强人意。话说 chatgpt 也不是最强的了，编程方面不如 Claude sonnet 3.5 。

sir283

2024-11-10 10:59:36 +08:00

别说文言一心了，国内所有网络平台都是受管制的，特别屎 b 站、抖音、微博，你发出去的评论如果涉及伤害别人，那就发不出去，只能你自己看到，你以为你骂的对方不还嘴，其实是你没有发出去，人家都没看到你发的内容，跟鸵鸟埋头一个道理。

还有简中的互联网对外开放越来越差劲了，很多简中网站的 robot 协议都禁止国外爬虫了，到时候在国外搜索引擎里面搜索简中内容，质量只会更差劲了。