Anthropic 家的模型训练与其他家差别大吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
Kinnikuman
V2EX    程序员

Anthropic 家的模型训练与其他家差别大吗?

  •  
  •   Kinnikuman 5 天前 3758 次点击

    大家都知道 Anthropic 家的模型,尤其是 Opus 的实力,在编码的实际体验中是最强的,没有之一。即使拿 gemini3.1pro 和 gpt5.3codex 比,这俩也是比不上它一点。

    除了编码,大家跑龙虾也能感觉出来差别很大,尤其是多步骤工具链的复杂任务只有 opus 能完美胜任,opus 画的 svg 动效流程图也是比新的 gemini 强很多。

    我的问题是,公开互联网训练数据大家都是一样的,各家的 RL 也差不离(这点应该没什么技术壁垒),经济实力上 OpenAI/Google 应该更有优势,那为什么训练出来的大模型只有 opus 家最强?

    是 Anthropic 家训练更强调代码能力,侧重点不同导致的吗?

    26 条回复    2026-03-15 12:47:10 +08:00
    neteroster
        1
    neteroster  
       5 天前 via Android   2
    https://cursor.com/blog/cursorbench

    今天刚发的,内部包含 cursor 在真实用户的真实编码场景中遥测出的评测数据

    Opus 不说落后,在编码上已经没有全面领先态势了。
    6diyipi
        2
    6diyipi  
       5 天前
    直观感受 。Opus 花了 200 写的 bug, codex 一次修复、完美
    LHN
        3
    LHN  
       5 天前   2
    `即使拿 gemini3.1pro 和 gpt5.3codex 比,这俩也是比不上它一点。`谁告诉你的这俩比不上一点啊,我用 codex 解决不了的问题 opus4.6 也解决不了,claude 目前用着就是速度快一点
    CoderUndefined
        4
    CoderUndefined  
       5 天前
    @neteroster #1 但是看大部分反馈用 claude code 效果还是比 codex 好一些,可能各家 cli 工具,在工程上还有所不同
    kelvinji2009
        5
    kelvinji2009  
       5 天前
    每个人的体感不太一样,综合看 Opus 4.6 和 GPT 5.4 high 交替被夸。某个模型解决不了,换另外一个就解决了,这个也不能直接说明哪个模型更强,很可能跟上下文有关。交叉使用多个模型解决问题,也算是一种最佳工程实践了。
    sillydaddy
        6
    sillydaddy  
       5 天前
    真的差别那么大吗,没有特别大的感觉,我的感觉反而是 gpt5.3codex 比较稳定可靠。我是在 cursor 内测试的。

    下面的乘法题,gpt5.3codex 能做到,但 opus4.6 做不到(推理卡死、直接放弃改用 python )。都是用的最高推理能力。

    ```
    你能不借助工具,心算一道乘法题吗?为保证准确性,你必须要一步一步计算。这里的一步一步是指无论加法还是乘法,都只取 1 位数字计算。也就是 1 位数乘以 1 位数,1 位数加 1 位数,无论是中间过程还是结果。

    834678372498583204724623 * 7827329472626174

    ```
    bbbblue
        7
    bbbblue  
       5 天前
    我感觉不太出来了。。。
    之前 cc 现在用 codex 用了几个礼拜了。。。没啥太明显的差别 可能唯一有变化的是 gpt 写完之后会自己再精装修一下(但是 cc 偶尔也会 其实也没太大区别。。。
    mogutouer
        8
    mogutouer  
       5 天前
    gpt 5.4 出来后感觉逻辑上没差别了,不过前端美观度还是 claude 略胜一筹,codex 有点直男。gemini 号称最强美工但 css 经常错乱,刚 3.1 刚发布的时候不是有个日见夜间切换按钮,尝试给他图片弄了一个,始终有样式问题,最后还是 claude 重来弄好的。
    https://imgur.com/O1J5fpq
    https://i.imgur.com/O1J5fpq.mp4
    cz5424
        9
    cz5424  
       5 天前
    @sillydaddy 我用 cursor 很容易卡死,但是 antigravity 就不会,opus4.6
    AoEiuV020JP
        10
    AoEiuV020JP  
       5 天前
    我始终感觉 claude 更懂我,
    每次其他模型火起来我都会试试,但就经常冒出来`你连这都听不懂吗`的疑问,
    也不是说 claude 就什么都能懂,但就是感觉其他总比 claude 差一些,
    有种没理解我的想法的感觉,尤其是我希望 AI 遵守什么约束参考什么 skill 调用什么工具,点名 GPT 家的总是不合我心意自己乱来,
    编程能力我是不觉得谁差的,
    defaw
        11
    defaw  
       5 天前
    从来没觉得 opus 强,用了几次都是蠢的要死故作深沉的在那进行一些可笑的推理,知识水平极差,没有知识就没有能力,知识这块 gpt 一直是最全面的,用 opus 推理 200k 上下文不如 gpt 直接给答案。
    deplives
        12
    deplives  
       5 天前
    [即使拿 gemini3.1pro 和 gpt5.3codex 比,这俩也是比不上它一点] 真是靠嘴比
    zjengjie
        13
    zjengjie  
       5 天前   1
    我用的公司给的 aws 上的 claude opus ,每次看到谁说这模型多么多么强一次解决问题没有任何缺点,我都怀疑自己用了个假模型。
    cvbnt
        14
    cvbnt  
       5 天前
    我用 codex 的 GPT5.4 ,我感觉和 opus4.6 已经不分伯仲了
    clow
        15
    clow  
       5 天前
    @defaw 有示例么,我看看是不是 gpt 真的强,这俩我都有会员
    default996
        16
    default996  
       5 天前
    一直在蹭免费的 codex 5.2 ,感觉已经很好了,有时候只需要手动修改一些代码就 OK 了
    cyp0633
        17
    cyp0633  
       5 天前
    感觉洗数据造数据有一套,要么就是后训练太领先了吧,我倾向于前者
    干活可能不再是最好的了,但语言上仍然简练有力而且自然
    ktyang
        18
    ktyang  
       5 天前
    我感觉 opus 还是聪明一点啊,gpt 偏老实一点,但是也没有断崖吧。
    defaw
        19
    defaw  
       5 天前
    @clow 两个场景,minecraft 的 3d 渲染,espidf 的嵌入式冷门库
    10bravoman24
        20
    10bravoman24  
       5 天前 via Android
    codex 5.3 的编码能力比 opus4.6 更强一些,但同样的 prompt 输入,它的理解能力上要差一些。
    vopsoft
        21
    vopsoft  
       5 天前 via Android
    个人觉得 Anthropic 强 其他的确实比不了一点儿
    crackidz
        22
    crackidz  
       5 天前
    不说别的,Codex 5.3 Codex 已经在锤 Opus 4.6 了。至于 Gemini ?路边一条了,尤其是 Google 动不动就降智,现在编码这项上,已经基本和国产模型坐一桌了。
    prosgtsr
        23
    prosgtsr  
       4 天前 via iPhone
    gpt 和 claude 这两家都有人吹
    gemini 刚出的时候吹前端写得好,现在也没见到了
    grok 大家只吹他能出涩图、别的路边一条
    XTTX
        24
    XTTX  
       4 天前
    gemini 3.1 pro 专门为了 svg 做了训练,实际使用远超 opus 4.6. 这个年代,每个模型都有自己特长。把他们特长加入自己的工作流.
    canyue7897
        25
    canyue7897  
       3 天前
    我也觉得 gemini 确实很不错
    不知道是不是我个人的问题
    偶尔会多修改一些内容
    不太遵守指令
    其他没任何问题
    lagrange7
        26
    lagrange7  
       3 天前
    cc 和 codex 都在用,claude 张嘴就是专业,要求很多请求确认的改动,改了三四轮 还是不行
    codex 只请求一次权限,两轮改好了,废话很少

    这种对比差异出现很多次了,感觉小问题 cc 擅长,复杂了不一定。codex 对我来说唯一的缺点是感觉它改的好慢?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1101 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 23:02 PVG 07:02 LAX 16:02 JFK 19:02
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86