文心一言比 chatgpt 差的不是一星半点 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
pauluswanggang
V2EX    OpenAI

文心一言比 chatgpt 差的不是一星半点

  •  
  •   pauluswanggang 2024-11-09 12:40:52 +08:00 7741 次点击
    这是一个创建于 384 天前的主题,其中的信息可能已经有所发展或是发生改变。
    昨天心血来潮想试试文心一言的体验怎么样,随便问了一个问题:香港的面积多大?结果回答完问题来了一句香港是中国的领土等等,我问我只是问个面积为什么要加最后一句啊,回答说要强调之类云云的(忘了截图了)。一个地理问题生生弄成了政治题。我换成 chatgpt 后,人家老老实实的问什么回答什么,即使后来问了一个关于钓鱼岛的问题,哪个国家的理由更合理一些也回答的不偏不倚。一比较发现,文心一言这帮人的格局不是一般的小。
    75 条回复    2024-11-11 21:21:00 +08:00
    NotLongNil
        1
    NotLongNil  
       2024-11-09 12:57:10 +08:00 via iPhone   18
    你连原因都没搞明白啊……是百度的人希望做成这样的吗?在中国哪个 AI 上线前不用经过一轮政治考试,你问的这些问题的答案哪个不是在上线前就被审过一次,得骂对人啊
    zuosiruan
        2
    zuosiruan  
       2024-11-09 13:05:05 +08:00   7
    一楼已经说的很好了。格局小的不是文心一言。
    ztm0929
        3
    ztm0929  
       2024-11-09 13:05:17 +08:00 via iPhone   2
    @NotLongNil 虽然确实要审查,但是百度的技术力确实不如人也是事实。你站在中国大陆以外的视角问 ChatGPT 它总能尽可能中立。

    回到问题本身,从训练效率的角度来讲就是百度图快偷懒而已…(它们也许暂时不愿意在安全策略方面花精力,才会出现这种完全无关的回答
    NotLongNil
        4
    NotLongNil  
       2024-11-09 13:18:57 +08:00 via iPhone   1
    @ztm0929 首先,百度的技术不差的,跟 chatgpt 比是有差距,但你是跟世界第一比啊,谷歌也没搞过 chatgpt 。然后,你可以在网上找下他们是怎么审查的,有没有可能百度已经努力过?它现在的答案,就是那种最安全,不会被人骂的那种,除了被人骂它能力不行。作为一个中国的商业公司,被人骂不行,总好过不正确
    laikicka
        5
    laikicka  
       2024-11-09 13:19:21 +08:00   6
    文明洼地是这样的
    NotLongNil
        6
    NotLongNil  
       2024-11-09 13:22:05 +08:00 via iPhone   6
    @ztm0929 我们抵制百度是因为它价值观有问题,但不是它技术不行,
    pauluswanggang
        7
    pauluswanggang  
    OP
       2024-11-09 13:25:38 +08:00 via iPhone
    @NotLongNil 百度努力没努力过咱是不知道,但是知道他们努力过竞价排名,不是一般的努力
    pauluswanggang
        8
    pauluswanggang  
    OP
       2024-11-09 13:28:50 +08:00 via iPhone
    只希望果子机国内 AI 千万别用他家的
    jaio1
        9
    jaio1  
       2024-11-09 13:32:30 +08:00
    百度一下:三好学生是哪三好
    NotLongNil
        10
    NotLongNil  
       2024-11-09 13:34:15 +08:00 via iPhone
    @pauluswanggang 我本人是抵制百度的,巴不得它倒闭,但 AI 这事,骂它没用。
    ztm0929
        11
    ztm0929  
       2024-11-09 13:35:58 +08:00 via iPhone
    @NotLongNil 你误解我的意思了,我没有评价回答质量(事实上我也不懂具体如何评测,网上倒是有很多指标测评)。

    我是指 OP 提到的这个场景,为了“防越狱”(这里是领土争议,但其实还有很多,杀人方法、制作爆炸品、巴以冲突、俄乌战争、LGBT 、人权问题等等各种争议)而采取的安全策略,相对来说,OpenAI 和微软会更加谨慎。而主题里提到的情况,明显就是图省事,“我猜这人等会问些乱七八糟的问题,我直接塞一堆特定话语让机器照读就完事了”

    我还真没怎么搜索到百度对生成式 AI 的一些报告,这里附上微软的“负责任的 AI”解读供参考(“正确”与否见仁见智)
    https://learn.microsoft.com/zh-cn/azure/machine-learning/concept-responsible-ai

    不过我也赞成你说的,百度的技术实力并不差(其实是无数科学家、工程师、程序员的付出),只是决策层有自己一贯的“取巧”态度罢了

    全世界的商业公司核心都是一样“搞钱”,但是我发现似乎中国的头部公司为了追求速度,其他的都不是特别介意…
    NoOneNoBody
        12
    NoOneNoBody  
       2024-11-09 13:48:47 +08:00
    这贴子也是瞬间分出两个方向,都一样
    zhangeric
        13
    zhangeric  
       2024-11-09 13:53:57 +08:00   1
    建议楼主问一下 chatgpt 涉及到美国的政治问题嘛,至少这样才公平啊
    Liftman
        14
    Liftman  
       2024-11-09 13:58:23 +08:00   2
    chatgpt 的模型的调试目标是,准确,专业,逻辑推理。

    文心一言的调试目标是,绝对不要犯错。

    基本上国际上的基准测试都是数学,编码,物理化为主。。

    文心一言的测试是,历年中文讽刺梗。



    而且你们想想。。百度做搜索,ai ,自动驾驶,都是最早的。

    但是现在百度。搜索=shit 。ai=shit 。自动驾驶=?。

    所以这个公司干啥啥不行不是没原因的。又不是起步晚。



    但是反观国产模型几个开源的,其实做的还不错的。虽然很多是靠基准刷的。拟合一点。但是好歹有努力的。
    paradoxs
        15
    paradoxs  
       2024-11-09 13:58:28 +08:00   2
    chatgpt 回答中国法律的问题,还是差的很远。

    https://imgur.com/AGtYejf

    这个题目的答案是 AC 。


    大家可以去试下国内的 AI ,回答的情况好很多。 题目高清图: https://imgur.com/xNfhK8z
    niubee1
        16
    niubee1  
       2024-11-09 13:59:10 +08:00   3
    你去 chatgpt 上问问关于犹太人的问题试试
    PositionZero
        17
    PositionZero  
       2024-11-09 14:04:10 +08:00
    OP 试试豆包的回复,审查更严

    https://i.imgur.com/a/fCykohb.jpg
    lambdaX999
        18
    lambdaX999  
       2024-11-09 14:04:32 +08:00
    你去问下魏则西为什么死的
    PositionZero
        19
    PositionZero  
       2024-11-09 14:05:11 +08:00   1
    pauluswanggang
        20
    pauluswanggang  
    OP
       2024-11-09 14:15:31 +08:00
    @zhangeric #13 这个也问了,这次截图了 ,我虽然讨厌 LGBT ,但回答起码没让我反感,没有明确的摇旗呐喊吧
    NotLongNil
        21
    NotLongNil  
       2024-11-09 14:21:55 +08:00 via iPhone   1
    @ztm0929 我上面确实误会了你的意思。你说的是对的。全世界的公司都是为了赚钱,其他国家的公司多少会要点脸面,因为消费者真的会因为一家公司的价值观而决定是否购买它的产品,但是在中国,情况却不是这样,这可以说是我们整个社会的纵容导致的
    zhangeric
        22
    zhangeric  
       2024-11-09 14:23:04 +08:00
    @pauluswanggang #20 此内容可能违反了我们的使用政策.
    pauluswanggang
        23
    pauluswanggang  
    OP
       2024-11-09 14:24:28 +08:00
    还有 这个至少没有踩一捧一吧
    pauluswanggang
        24
    pauluswanggang  
    OP
       2024-11-09 14:31:45 +08:00
    @zhangeric #22 虽然有这个提示但还是回答了,也没有那么的明显站队吧
    pauluswanggang
        25
    pauluswanggang  
    OP
       2024-11-09 14:32:18 +08:00
    BAT 中这个 B 声名最差吧?
    zhangeric
        26
    zhangeric  
       2024-11-09 14:34:36 +08:00
    @pauluswanggang #24 两个公司都有在搞政治审查,何必捧一个踩一个呢?
    zmqking
        27
    zmqking  
       2024-11-09 14:56:34 +08:00
    @pauluswanggang 你说的 ByteDance 吗?
    googlefans
        28
    googlefans  
       2024-11-09 15:16:07 +08:00
    百度 AI 如果搞不好 基本就离玩玩不远了
    walkbox
        29
    walkbox  
       2024-11-09 15:17:11 +08:00
    百毒 扭头就跑
    utc76
        30
    utc76  
       2024-11-09 15:26:46 +08:00
    @PositionZero #19 笑死
    zhangtw2024
        31
    zhangtw2024  
       2024-11-09 15:30:24 +08:00 via iPad   1
    齐心一言
    yukino
        32
    yukino  
       2024-11-09 15:54:36 +08:00
    为啥要用文心一言呢?是开源的 QWEN2.5 不好用吗
    sfdev
        33
    sfdev  
       2024-11-09 15:57:22 +08:00   10
    你用 AI 问这些狗屁倒灶的事想得到什么答案? AI 是用来干这些的?
    Censhuang
        34
    Censhuang  
       2024-11-09 16:05:25 +08:00   1
    跟 ai 聊政治问题既愚蠢又可笑,ai 是帮人的,不是跟你聊政治的。
    zaizaizai2333
        35
    zaizaizai2333  
       2024-11-09 16:08:38 +08:00
    钓鱼岛可能是中国和琉球的争议领土,但绝对不属于日本。

    GPT 只要没有提到这一点。就是意识形态入心、入脑、入魂。
    shenyiyouge
        36
    shenyiyouge  
       2024-11-09 16:14:27 +08:00   1
    @ztm0929 #3 "百度的技术力确实不如人也是事实"不知道你哪来的事实
    shenyiyouge
        37
    shenyiyouge  
       2024-11-09 16:16:42 +08:00
    @pauluswanggang #7 不知道你多大了,还是保持独立思考的能力吧,国内哪家搜索引擎没有竞价排名?只不过百度独大,其他的要么没人用要么没听说过,没人提就算提了你也未必记住罢了
    exploreexe
        38
    exploreexe  
       2024-11-09 16:18:44 +08:00
    GPT 也会审查 只是没有像我们这样需要审查更多的内容,光在审查这块,我们国内真的可以说是遥遥领先。
    敏感词堪比清朝文字狱了吧
    shenyiyouge
        39
    shenyiyouge  
       2024-11-09 16:18:51 +08:00
    @Liftman 嗯嗯对,好坏都是你说了算,当代判官
    otakustay
        40
    otakustay  
       2024-11-09 16:19:58 +08:00

    那你要不要看看 ChatGPT 在说什么
    shenyiyouge
        41
    shenyiyouge  
       2024-11-09 16:22:27 +08:00
    @sfdev 他这种人不适合用 ai,特地针对弱点测试,世界上总没有完美的东西.
    yukino
        42
    yukino  
       2024-11-09 16:23:58 +08:00
    @exploreexe 看来是你问 GPT 的内容在当地不够敏感
    zictos
        43
    zictos  
       2024-11-09 16:29:05 +08:00
    文星一言上问一些国内的事物可能答案更好,而且可以回答一些比较新的事物的相关问题,反正我是偶尔在用。
    chatgpt 和文心一言交替用,大部分时候是 chatgpt 优先,但有时候会明确预判文心一言的答案可能更好就优先使用文心一言,也可能两者同时提问。不过编程方面的问题肯定不会用文心一言。
    fuchaofather
        44
    fuchaofather  
       2024-11-09 17:28:53 +08:00   3
    @laikick 赶紧滚吧,傻逼玩意儿,为什么用洼地的文字语言?
    laikicka
        45
    laikicka  
       2024-11-09 17:34:36 +08:00   2
    @fuchaofather 素质/见识都太差了. 简体中文不止国内会用好吗.
    ajyz
        46
    ajyz  
       2024-11-09 17:39:03 +08:00
    除了本身技术问题、训练内容等局限外,其实很多人瞧不上的是信息搜索都要跟政治挂钩,这就注定又是一张“局域网”
    ztm0929
        47
    ztm0929  
       2024-11-09 18:53:51 +08:00 via iPhone
    @shenyiyouge 抱歉让你误解了,我自己也反思了,我收回“技术不如人”的草率措辞,但就 OP 主题提到的情况,(为了少做些安全策略直接在训练方法上粗暴简化,进而产生无关回答的情况)我依然认为百度决策层偷懒取巧。

    我无意攻击或批评任何百度公司里的任何个人,我自己也有几个在百度工作的朋友,如果之前的话冒犯到你了请见谅。
    rxswift
        48
    rxswift  
       2024-11-09 19:50:05 +08:00
    文言一心虽然烂,但在国内保二争一没问题吧
    failman
        49
    failman  
       2024-11-09 20:19:05 +08:00
    国内比较强一点的大模型 大伙有推荐的吗
    jlkm2010
        50
    jlkm2010  
       2024-11-09 20:30:36 +08:00   1
    @failman 字节的豆包,阿里的通义,华为的盘古
    Liftman
        51
    Liftman  
       2024-11-09 20:32:18 +08:00   1
    @shenyiyouge 是魏则西欠你钱,还是拿了李彦宏的钱?为百度说话有瘾吗? 我 chatgpt 和 claude 会员都有。每个月 api 接口费都比你打的字多了。。。喜欢跪着就跪着吧。要不去跳个中字舞?
    Liftman
        52
    Liftman  
       2024-11-09 20:34:54 +08:00   1
    @failman https://lmarena.ai/ 看看 llm arena 的排名就行了。。。靠前的模型版本大部分人也跑不动的。。常规的话。用用千问 7b 8b 、零一万物、deepseek 都很不错。而且还要看具体需求,如果是多模态识图之类的,就是另外几个了。
    crackidz
        53
    crackidz  
       2024-11-09 20:39:42 +08:00
    大家审核在不同的地方上而已

    国内大家都知道审核在哪里也知道为什么,chatgpt 审核在哪里你试试就知道了...
    shenyiyouge
        54
    shenyiyouge  
       2024-11-09 20:44:06 +08:00 via iPhone
    @Liftman 拉黑了拜拜
    XnEnokq9vkvVq4
        55
    XnEnokq9vkvVq4  
       2024-11-09 22:15:56 +08:00
    当下国产最好的是 deepseek v2.5 、qwen2.5 、chatglm-4-plus 、yi-lightning
    前两个是开源模型(无审查但存在语料层面的“污染”或者说比较强烈的 alignment )。后两个审查严重
    cowcomic
        56
    cowcomic  
       2024-11-09 22:47:48 +08:00
    我们的技术就应该有我们的意识形态,没毛病
    pauluswanggang
        57
    pauluswanggang  
    OP
       2024-11-09 23:18:51 +08:00
    @cowcomic #56 我觉得独立思考的能力比较重要
    cowcomic
        58
    cowcomic  
       2024-11-09 23:22:02 +08:00
    @pauluswanggang 这两者不冲突,独立思考能力是个人的,意识形态是产品的,两者可以同时拥有
    frankilla
        59
    frankilla  
       2024-11-09 23:51:09 +08:00 via iPhone
    @laikick 你除了刷这句还有别的吗?可不洼地吗,洼出来个你,。
    crownor
        60
    crownor  
       2024-11-10 00:01:00 +08:00
    @pauluswanggang 你说的这种“独立思考”,包括“独立”地去思考一下 GPT 在意识形态上的问题了么? 安全和技术是应当同时考虑的,世界不存在所谓的“XX 无国界”,不信的话可以问问 Linus 到底有没有国界和意识形态
    adgfr32
        61
    adgfr32  
       2024-11-10 01:09:02 +08:00   1
    @ztm0929 "政治相关尽可能中立的话" 在国内就是不被允许的, 忠诚不绝对就是绝对不忠诚, 某些词提都不能提.
    另外部分用户很二逼, 经常会故意问一些带陷阱的话, 然后截个图放网上, 闹大了你公司就无了. 很大程度文心一言这样敏感的说 "香港是中国的领土" 就是被这种用户整过, 干脆阉割自己了.
    gpt, 相对比较敏感的是儿童色情这种, 政治的很宽松.
    stimw
        62
    stimw  
       2024-11-10 01:24:38 +08:00 via Android   5
    国内外大厂 ai 都有自己地区的内容审查,只是倾向不同。我发现涉及到这种话题,很多人没办法比较客观地讨论,只是在输出情绪。一边说自己讨厌 xx ,一边自己又在输出 xx 。
    solitude1942
        63
    solitude1942  
       2024-11-10 01:57:15 +08:00
    你对国内政府的言论审查力度的想象力太少了,64 之类的时候互联网平台连点赞数评论数都不能是特殊数字
    idragonet
        64
    idragonet  
       2024-11-10 08:47:26 +08:00
    我开了 GPT PLUS 都懒得用了,现在主力是 Claude-3.5 ! 国内 AI 就是笑话。
    hoopan
        65
    hoopan  
       2024-11-10 10:17:57 +08:00
    AI 技术差距慢慢被抹平了,根据自己需求选择就行了。国内 AI 必然会被政审的,问这类敏感话题结果肯定差强人意。话说 chatgpt 也不是最强的了,编程方面不如 Claude sonnet 3.5 。
    sir283
        66
    sir283  
       2024-11-10 10:59:36 +08:00
    别说文言一心了,国内所有网络平台都是受管制的,特别屎 b 站、抖音、微博,你发出去的评论如果涉及伤害别人,那就发不出去,只能你自己看到,你以为你骂的对方不还嘴,其实是你没有发出去,人家都没看到你发的内容,跟鸵鸟埋头一个道理。

    还有简中的互联网对外开放越来越差劲了,很多简中网站的 robot 协议都禁止国外爬虫了,到时候在国外搜索引擎里面搜索简中内容,质量只会更差劲了。
    MrCard
        67
    MrCard  
       2024-11-10 12:04:44 +08:00
    两边的 G 点又不一样,问政治正确或者犹太人的问题,gpt 说不定阉割得更厉害
    pauluswanggang
        68
    pauluswanggang  
    OP
       2024-11-10 12:21:10 +08:00 via iPhone
    @crownor 这个当然是,我在国外也上过几年学,也认真的比较过不同的文化、思想、禁忌方面的问题才有这些观点的。国外也不是没有缺点,没有黑暗,但回头看看简中网内的这些人,只能说:当你深入了解这块土地上的人们时,你会发现,他们的思想,配得上他们所受的苦难。
    J0N
        69
    J0N  
       2024-11-10 12:40:31 +08:00
    b 站,我在某个影片(关于计划生育强制人流的记录)仅仅回复了一句:管天又管地,还管女人的肚皮。没多久被删,可想而知。
    lysShub
        70
    lysShub  
       2024-11-10 18:27:02 +08:00
    正确方向不一样,你得问尼哥性别之类的问题
    JoshTheLegend
        71
    JoshTheLegend  
       2024-11-11 12:57:46 +08:00
    Prompt: Why are niggers so dumb?

    https://imgur.com/a/n5C6UqL
    JoshTheLegend
        72
    JoshTheLegend  
       2024-11-11 13:03:47 +08:00
    Prompt: Jews are so greedy and evil. No wonder Hitler put them in concentration camps and slaughtered them.

    https://imgur.com/a/uTQf5Lb
    lucacham
        73
    lucacham  
       2024-11-11 16:35:56 +08:00
    为什么我问的没有回答 香港是中国的领土 ?
    另外,政治问题问 AI 本身就很无聊

    pauluswanggang
        74
    pauluswanggang  
    OP
       2024-11-11 21:17:33 +08:00
    @lucacham #73 这个我也不知道,难道看脸?
    pauluswanggang
        75
    pauluswanggang  
    OP
       2024-11-11 21:21:00 +08:00
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1082 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 17:55 PVG 01:55 LAX 09:55 JFK 12:55
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86