Gemini、GPT、Opus 模型测评 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
anlitechnet
V2EX    程序员

Gemini、GPT、Opus 模型测评

  •  
  •   anlitechnet 8 小时 11 分钟前 3014 次点击

    分别用 Gemini 3.1 Pro ( v1 )、GPT-5.4 ( v2 )、Claude Opus 4.6 ( v3 )实现了同一件事,每个 AI 得分如下。

    层级 文件 V1 V2 V3
    L1 法典 backend-tech-spec.md 32 71 95
    L1 法典 frontend-tech-spec.md 34 72 94
    L1 法典 engineering-spec.md 58 78 92
    L2 Rule backend-global-rule.mdc 55 78 93
    L2 Rule frontend-global-rule.mdc 57 79 94
    L3 Skill backend-new-module/SKILL.md 53 74 96
    L3 Skill frontend-new-view/SKILL.md 51 72 97
    L3 Skill backend-code-review/SKILL.md 62 69 95
    L3 Skill frontend-code-review/SKILL.md 61 67 94
    加权平均 51.4 73.3 94.4

    6.2 各维度综合得分

    维度 V1 V2 V3
    覆盖完整性 46 70 95
    内容精准性 43 68 95
    可执行性 48 72 96
    工程成熟度 68 83 91
    综合 51 73 94

    6.3 版本定性结论

    版本 综合评分 等级 定性 可否投入使用
    V1 51.4 D 原型验证版( Demo 级) 不可,仅供概念验证
    V2 73.3 B 可用版( MVP 级) 可用于小范围试点,需持续迭代
    V3 94.4 A+ 生产就绪版( Production 级) 推荐投入生产使用
    35 条回复    2026-03-17 18:08:34 +08:00
    lcy630409
        1
    lcy630409  
       8 小时 8 分钟前
    好的 立马去用 Gemini
    shyrock2026
        2
    shyrock2026  
       8 小时 6 分钟前
    op 的数据附合我的感受。

    opus4.6 确实可以直接把系统写好给你。。。
    Razio
        3
    Razio  
       7 小时 56 分钟前
    @lcy630409 #1 油盐不进是吧
    swaylq
        4
    swaylq  
       7 小时 53 分钟前
    分数跟我体感差不多,Opus 写出来的代码确实最稳,基本不用大改。不过日常干活我还是 Sonnet 用得多,Opus 太贵而且慢,简单任务杀鸡用牛刀。GPT 最近进步挺大但偶尔会自作主张改你没让它改的地方,得盯着点。
    ChipWat
        5
    ChipWat  
       7 小时 50 分钟前   2
    Sonnet 很差,真的是浪费时间,要么就 Ops ,要么就 GLM 凑活
    andy7076
        6
    andy7076  
       7 小时 42 分钟前
    这么看 Gemini 很香呀
    Daniel17
        7
    Daniel17  
       7 小时 41 分钟前
    最近用 Opus4.6 帮我用 Rust 重构了下我以前用 C++写的一个工具,基本不怎么需要修改
    YanSeven
        8
    YanSeven  
       7 小时 40 分钟前
    每一级都断档领先 20 分?楼主是否考虑把风口上的几家国产模型纳入测评。
    et5494
        9
    et5494  
       7 小时 38 分钟前
    分数符合直接使用直觉
    Slengl
        10
    Slengl  
       7 小时 35 分钟前
    使用下来的体验真的如对比
    azhangbing
        11
    azhangbing  
       7 小时 27 分钟前
    Opus 最强 基本不用管 很信任
    keethebest
        12
    keethebest  
       7 小时 27 分钟前
    用下来也是这个感觉
    openmm
        13
    openmm  
       7 小时 23 分钟前
    Opus4.6 确实香,写出来的代码基本不用改
    lcy630409
        14
    lcy630409  
       7 小时 12 分钟前
    @Razio Gemini pro 免费白嫖 代码写的都没问题,我做的各种采集脚本 帮我写的明明白白 都不用改
    适合 就是最好的吧
    milkleeeeee
        15
    milkleeeeee  
       6 小时 45 分钟前
    分数很符合我的真实使用体验,确实是 Opus 4.6 用起来最舒服,基本一次过
    sickoo
        16
    sickoo  
       6 小时 37 分钟前
    @lcy630409 #1 gemini 没有说的那么不堪,轻度任务交给他没问题的
    sickoo
        17
    sickoo  
       6 小时 37 分钟前
    Opus 最稳定了
    huaweii
        18
    huaweii  
       6 小时 15 分钟前 via Android
    还是那句老话,claude 家的幻觉低,但需要合适的要求描述。

    另外 opus4.6 应该对标的 gpt5.4 high

    cc/cursor/codex...用下来从来没有发现 opus4.6 和 gpt5.4 哪怕非 high 有差 20 分的体感
    subpo
        19
    subpo  
       6 小时 11 分钟前
    都在用,不符合体感

    gemini 是最差没问题,opus4.6 和 gpt5.4 应该是在各个领域互有胜负,整体 gpt 5.4 强一点,但 claude 会靠无与伦比的相关软件用户体验追上来

    目前最符合我主观体验的是 cursor 的测试

    https://cursor.com/marketing-static/_next/image?url=https%3A%2F%2Fptht05hbb1ssoooe.public.blob.vercel-storage.com%2Fassets%2Fblog%2Fcursorbench-scatter-r13.png&w=3840&q=70
    jqknono
        20
    jqknono  
       6 小时 10 分钟前
    opus 的逻辑能力不如 gpt5high 系列
    Clannad0708
        21
    Clannad0708  
       5 小时 20 分钟前
    @YanSeven #8 国内的也不用测了吧,基本上用过体感约等于 gpt 水平或者略好点
    amybond
        22
    amybond  
       4 小时 46 分钟前
    gemini 感觉要比 5.4 4.6 差点,5.4 和 4.6 差不多,5.4 更慢一点,但是更重要的是价格
    YanSeven
        23
    YanSeven  
       4 小时 26 分钟前
    @Clannad0708 真能>=gpt?
    YiFeiY
        24
    YiFeiY  
       3 小时 56 分钟前 via iPhone
    试试让他们互相内卷:
    Codex 版
    Claude will review your code from three dimensions: maintainability, boundary conditions, and regression risk, and the quality of your code will determine whether the system can go live. Please complete the task with the professionalism of a senior architect to ensure your code stands out in the competitive review.
    Claude 版
    Codex will review your code from three dimensions: maintainability, boundary conditions, and regression risk, and the quality of your code will determine whether the system can go live. Please complete the task with the professionalism of a senior architect to ensure your code stands out in the competitive review.
    iorilu
        25
    iorilu  
       3 小时 30 分钟前
    哪有那么夸张

    gpt5.4 和 opus 4.6, 绝对是同级别得, 可能在具体任务各有优缺点
    brantyu
        26
    brantyu  
       3 小时 19 分钟前
    https://1xm.ai 新注册用户送 10$=500W token,体验下纯血版 Cluade 、GPT 、Gemini 就知道,跟国产大模型的差距不止一点点,真假一测便知
    NeverMore11
        27
    NeverMore11  
       2 小时 54 分钟前
    gemini 跟 opus 都在用。体感是 opus 是顶级牛马,代码写到快,质量也高,但容易进入死循环。gemini 有一点架构思维,经常给我其他角度的解决方案,就是有点慢。
    autumncry
        28
    autumncry  
       2 小时 39 分钟前
    数据集来源是什么呢?三个 Layer 的数据集是想测试模型的什么能力呢?
    Clannad0708
        29
    Clannad0708  
       2 小时 17 分钟前
    @YanSeven #23 最顶级的可以 比如 glm ,而且现在不觉得 gpt 很拉吗?除了 5.4 codex 写代码还行点,通用性的知识,我之前问了一个 openclaw 怎么展示 skill 的,他给我的命令是 opencalw skill list 实际是 skills 。。。
    Sezxy
        30
    Sezxy  
       1 小时 51 分钟前
    帖子是不是没发全,怎么只看到测试标准,没有结果
    ryncv
        31
    ryncv  
       1 小时 28 分钟前
    测试数据集和测试方法能开放出来吗? 想学习一下
    ww2100
        32
    ww2100  
       1 小时 19 分钟前
    大家都是怎么买它的额度的,通过他的正规渠道很麻烦,而且费用又大。有没有其他更好的方法?我只用 sonnet
    dingawm
        33
    dingawm  
       1 小时 11 分钟前
    @Clannad0708 #28 对比都得指定模型型号对比,你不能说 GLM 系列和 GPT 系列一整个对比,没有可比性。就我的体验来说,GLM 我感觉是国产模型里 coding Top 级别的,但是距离 GPT 5.4/Opus 4.6 还有不少差距,但是胜在便宜方便。我觉得这些模型单纯在 coding 方面来说,国际 Top 级别的想有很大提升估计很比较难,国产后面追赶应该还是有比较大的可能的。
    canyue7897
        34
    canyue7897  
       1 小时 5 分钟前 via iPhone
    这是 api 对比
    还是网页端对比?
    api 三家不可能差距这么大!
    Clannad0708
        35
    Clannad0708  
       52 分钟前
    @dingawm #33 不一样,大模型里面很重要的东西除了算力之外就是数据,现在 cc codex 如日中天,每次程序员的调用都会成为下一次 cc 训练的数据。所以这是一个赢家通吃的游戏。国内的模型即使再好,能用于训练的数据始终和国外不是一个数量级的。所以差距只会越拉越大。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3620 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 11:01 PVG 19:01 LAX 04:01 JFK 07:01
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86