Gemini、GPT、Opus 模型测评

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

请不要在回答技术问题时复制粘贴 AI 生成的内容

分别用 Gemini 3.1 Pro （ v1 ）、GPT-5.4 （ v2 ）、Claude Opus 4.6 （ v3 ）实现了同一件事，每个 AI 得分如下。

层级	文件	V1	V2	V3
L1 法典	`backend-tech-spec.md`	32	71	95
L1 法典	`frontend-tech-spec.md`	34	72	94
L1 法典	`engineering-spec.md`	58	78	92
L2 Rule	`backend-global-rule.mdc`	55	78	93
L2 Rule	`frontend-global-rule.mdc`	57	79	94
L3 Skill	`backend-new-module/SKILL.md`	53	74	96
L3 Skill	`frontend-new-view/SKILL.md`	51	72	97
L3 Skill	`backend-code-review/SKILL.md`	62	69	95
L3 Skill	`frontend-code-review/SKILL.md`	61	67	94
加权平均		51.4	73.3	94.4

6.2 各维度综合得分

维度	V1	V2	V3
覆盖完整性	46	70	95
内容精准性	43	68	95
可执行性	48	72	96
工程成熟度	68	83	91
综合	51	73	94

6.3 版本定性结论

版本	综合评分	等级	定性	可否投入使用
V1	51.4	D	原型验证版（ Demo 级）	不可，仅供概念验证
V2	73.3	B	可用版（ MVP 级）	可用于小范围试点，需持续迭代
V3	94.4	A+	生产就绪版（ Production 级）	推荐投入生产使用

35 条回复 2026-03-17 18:08:34 +08:00

lcy630409

8 小时 8 分钟前

好的立马去用 Gemini

shyrock2026

8 小时 6 分钟前

op 的数据附合我的感受。

opus4.6 确实可以直接把系统写好给你。。。

Razio

7 小时 56 分钟前

@lcy630409 #1 油盐不进是吧

swaylq

7 小时 53 分钟前

分数跟我体感差不多，Opus 写出来的代码确实最稳，基本不用大改。不过日常干活我还是 Sonnet 用得多，Opus 太贵而且慢，简单任务杀鸡用牛刀。GPT 最近进步挺大但偶尔会自作主张改你没让它改的地方，得盯着点。

ChipWat

7 小时 50 分钟前

Sonnet 很差，真的是浪费时间，要么就 Ops ，要么就 GLM 凑活

andy7076

7 小时 42 分钟前

这么看 Gemini 很香呀

Daniel17

7 小时 41 分钟前

最近用 Opus4.6 帮我用 Rust 重构了下我以前用 C++写的一个工具，基本不怎么需要修改

YanSeven

7 小时 40 分钟前

每一级都断档领先 20 分？楼主是否考虑把风口上的几家国产模型纳入测评。

et5494

7 小时 38 分钟前

分数符合直接使用直觉

Slengl

7 小时 35 分钟前

使用下来的体验真的如对比

azhangbing

7 小时 27 分钟前

Opus 最强基本不用管很信任

keethebest

7 小时 27 分钟前

用下来也是这个感觉

openmm

7 小时 23 分钟前

Opus4.6 确实香，写出来的代码基本不用改

lcy630409

7 小时 12 分钟前

@Razio Gemini pro 免费白嫖代码写的都没问题，我做的各种采集脚本帮我写的明明白白都不用改
适合就是最好的吧

milkleeeeee

6 小时 45 分钟前

分数很符合我的真实使用体验，确实是 Opus 4.6 用起来最舒服，基本一次过

sickoo

6 小时 37 分钟前

@lcy630409 #1 gemini 没有说的那么不堪，轻度任务交给他没问题的

sickoo

6 小时 37 分钟前

Opus 最稳定了

huaweii

6 小时 15 分钟前 via Android

还是那句老话，claude 家的幻觉低，但需要合适的要求描述。

另外 opus4.6 应该对标的 gpt5.4 high

cc/cursor/codex...用下来从来没有发现 opus4.6 和 gpt5.4 哪怕非 high 有差 20 分的体感

subpo

6 小时 11 分钟前

都在用，不符合体感

gemini 是最差没问题，opus4.6 和 gpt5.4 应该是在各个领域互有胜负，整体 gpt 5.4 强一点，但 claude 会靠无与伦比的相关软件用户体验追上来

目前最符合我主观体验的是 cursor 的测试

https://cursor.com/marketing-static/_next/image?url=https%3A%2F%2Fptht05hbb1ssoooe.public.blob.vercel-storage.com%2Fassets%2Fblog%2Fcursorbench-scatter-r13.png&w=3840&q=70

jqknono

6 小时 10 分钟前

opus 的逻辑能力不如 gpt5high 系列

Clannad0708

5 小时 20 分钟前

@YanSeven #8 国内的也不用测了吧，基本上用过体感约等于 gpt 水平或者略好点

amybond

4 小时 46 分钟前

gemini 感觉要比 5.4 4.6 差点，5.4 和 4.6 差不多，5.4 更慢一点，但是更重要的是价格

YanSeven

4 小时 26 分钟前

@Clannad0708 真能>=gpt?

YiFeiY

3 小时 56 分钟前 via iPhone

试试让他们互相内卷：
Codex 版
Claude will review your code from three dimensions: maintainability, boundary conditions, and regression risk, and the quality of your code will determine whether the system can go live. Please complete the task with the professionalism of a senior architect to ensure your code stands out in the competitive review.
Claude 版
Codex will review your code from three dimensions: maintainability, boundary conditions, and regression risk, and the quality of your code will determine whether the system can go live. Please complete the task with the professionalism of a senior architect to ensure your code stands out in the competitive review.

iorilu

3 小时 30 分钟前

哪有那么夸张

gpt5.4 和 opus 4.6, 绝对是同级别得, 可能在具体任务各有优缺点

brantyu

3 小时 19 分钟前

https://1xm.ai 新注册用户送 10$=500W token,体验下纯血版 Cluade 、GPT 、Gemini 就知道，跟国产大模型的差距不止一点点，真假一测便知

NeverMore11

2 小时 54 分钟前

gemini 跟 opus 都在用。体感是 opus 是顶级牛马，代码写到快，质量也高，但容易进入死循环。gemini 有一点架构思维，经常给我其他角度的解决方案，就是有点慢。

autumncry

2 小时 39 分钟前

数据集来源是什么呢？三个 Layer 的数据集是想测试模型的什么能力呢？

Clannad0708

2 小时 17 分钟前

@YanSeven #23 最顶级的可以比如 glm ，而且现在不觉得 gpt 很拉吗？除了 5.4 codex 写代码还行点，通用性的知识，我之前问了一个 openclaw 怎么展示 skill 的，他给我的命令是 opencalw skill list 实际是 skills 。。。

Sezxy

1 小时 51 分钟前

帖子是不是没发全，怎么只看到测试标准，没有结果

ryncv

1 小时 28 分钟前

测试数据集和测试方法能开放出来吗？想学习一下

ww2100

1 小时 19 分钟前

大家都是怎么买它的额度的，通过他的正规渠道很麻烦，而且费用又大。有没有其他更好的方法？我只用 sonnet

dingawm

1 小时 11 分钟前

@Clannad0708 #28 对比都得指定模型型号对比，你不能说 GLM 系列和 GPT 系列一整个对比，没有可比性。就我的体验来说，GLM 我感觉是国产模型里 coding Top 级别的，但是距离 GPT 5.4/Opus 4.6 还有不少差距，但是胜在便宜方便。我觉得这些模型单纯在 coding 方面来说，国际 Top 级别的想有很大提升估计很比较难，国产后面追赶应该还是有比较大的可能的。

canyue7897

1 小时 5 分钟前 via iPhone

这是 api 对比
还是网页端对比？
api 三家不可能差距这么大！

Clannad0708

52 分钟前

@dingawm #33 不一样，大模型里面很重要的东西除了算力之外就是数据，现在 cc codex 如日中天，每次程序员的调用都会成为下一次 cc 训练的数据。所以这是一个赢家通吃的游戏。国内的模型即使再好，能用于训练的数据始终和国外不是一个数量级的。所以差距只会越拉越大。