我的 GPT 5.5 怎么和你们的不一样？

最近经常看到有帖子回复说「 GPT 5.5 比 Claude Opus 强得多」「 GPT 5.5 更全能」（例如 t/1217986 ）。

但就我最近几周的使用体验，我感觉 GPT 5.5 相当不如人意啊。具体来说：

口癖和英文直译腔特别严重。虽然说比之前的 GPT 5.2~5.4 好一些，但也真的只是好一些，还是特别喜欢说「稳」「接」「拆」「跑」「闭环」「收敛」「它更像是……」「不是……而是……」「你说的完全正确」「先说结论」「列出“子弹”」「修改更“硬”」「要不要我……」「我立马开始……」。我尝试写了个 Skill 来试图修复它的回复风格，但也没有太大收益；
结构化表达能力不行。例如同样是对于一个代码仓库，询问一个需要深入代码研究的问题，Opus 4.8 能够简洁地以一两句话回复 Yes or No ，但 GPT 5.5 就要生成几千 tokens 的、包含四五点小标题的冗长回答，引用一大坨代码，而且每个分点的内容之间相互重叠，读起来全是噪音，心智负担特别高，而且相比于 Opus 的答案，也没有获得什么额外的有效信息量。搞得我现在都不敢问 GPT 5.5 问题了，读得头疼。
擅自动手，干一大堆根本没有要求的任务。这个我原以为只有 Gemini 之类的模型会犯，但最近 GPT 5.5 也开始频繁出现了：让他看个 review ，讨论一下如何解决，它直接自作主张一口气「阅读了 review 、研究了代码、选择了自己喜欢的解决方案、编写了 AI review 回复」。要不是我及时掐断，它都要调用 GitHub cli ，以我的身份去回复别人了；还有一次，要求它「阅读一个 bug 描述、定位代码问题」，结果它非要和我讨论「这个 bug 报告的英文措辞不对，应该如何改善」，就很……
代码风格很差。这个我不知道怎么描述，但是同样让 GPT 和 Opus 去写一个一两千行左右的复杂代码任务，GPT 给我写的代码修修补补之后，最终总是包含几十个零碎函数、一大堆无用的小作文注释、不对称的代码结构（例如有两个 Config 概念，GPT 非要写出一个 struct、一个 class）。这些也都算好的了，毕竟「又不是不能用」，关键是它写着写着会把自己也给绕进去，淹没在自己写的屎山注释和混乱结构里，最后失能得连自己写的细节都忘记了，debug 都做不好了；

而 Opus 不仅写出来的代码更有「人味」、符合我的预期，甚至有能力修复重构 GPT 写出的屎山，延长 GPT 的工作周期。有一次：GPT 5.5 挣扎两个小时，然后告诉我做不好的任务，Opus 花 15 分钟定位、直接几行代码解决了。

总之，我目前的体感能力大概是：

Opus 4.8 ≈ Opus 4.6 >> Opus 4.7 > GPT 5.5 ≈ MiMo 2.5 Pro >> GPT 5.2~5.4 >> Gemini 3.1 Pro

我的配置：OpenCode + ChatGPT Pro 官方订阅（无中转站），GPT 5.5 xhigh

如果各位有舒适的使用体验，也欢迎分享点 Harness 方面的干货，我是真没辙了。昨晚项目被 GPT 5.5 乱改一通，气得血压都高了

结构

自动

代码

35 replies 2026-06-05 17:31:37 +08:00

409164

1 day ago

4.8max 秒杀 5.5xhigh

Ericcccccccc

1 day ago

用的是 codex 吗

w568w

1 day ago

@Ericcccccccc 主帖有写，是 OpenCode 。我不太方便把我的 Claude 订阅接入到 Codex ，所以两边都「客场作战」，用一模一样的 OpenCode 配置，来公平比较了。

Ericcccccccc

1 day ago

@w568w 这就不清楚了。codex 是很强的，我的体感是只要讲清楚代码都是一遍过的。（我没用过 cc

lujiaosama

1 day ago

@w568w OpenCode 的锅可不小。同样接入 DeepSeek ，用 Claude CLI 和 OpenCode 的表现截然不同。

Perry

1 day ago via iPhone

其实很看你的 Verification loop 如何

xuhuanzy

1 day ago

你是我第一个看到 opus 改 gpt 的屎山的, 正常来说只有 gpt 给 opus 擦屁股的份

w568w

1 day ago

@lujiaosama 你的意思是，OpenCode 在 Claude 上能发挥优势，但在 DeepSeek 、GPT 上都有极大劣势？我倒是也可以试试 Codex CLI 就是了

@Perry 此话怎讲？

w568w

1 day ago

@xuhuanzy 「正常来说」是怎么来说？能不能分享下你的配置？

felixcode

PRO

1 day ago

gpt 5.5 xhigh 感觉比 opus 4.7 max 稳很多。
opus 快是快，顾前不顾后，改了这个忘了那个。

Retas

1 day ago

codex 的 GPT-5.5 的语言表达感觉能追上 Opus-4.8 了，没有那么糟糕

w568w

1 day ago

@felixcode 我的体验正好和你相反：GPT 5.5 各种瞎 jb 改，不管上下文，甚至不管我前一句话的要求是什么，按自己喜好乱写； Opus 倒是总是瞻前顾后，每次 plan 时排出一堆 concerns 来

另外我感觉 Opus 4.7 明显有大幅度降智，Opus 4.8 才勉强回归到了 4.6 的能力水平，所以我把 GPT 5.5 和 Opus 4.7 放在一起

Zarhani

1 day ago

没用过 claude ，但是我这边倒是 GPT5.5 生成的代码质量还算不错，我都是先用 GPT5.5 生成大框架后用 deepseek v4 pro 来继续干自动完成的活的，（问就是 codex 限额太少）

Zarhani

1 day ago

@Zarhani deepseek 给我的感觉就是，只要上下文里面有已有高质量代码，就会变得巨聪明；如果上下文没有高质量代码就会没那么聪明；似乎这个模型底子不错但是后训练不足，小众需求代码不在知识库里面

lujiaosama

1 day ago

@w568w 我只是对比了 DeepSeek 在这俩上的表现。CodeX+GPT5.5 高有你说的问题特征，但是没有那么差,看描述像是 Codex5.3 之前比较容易出现的。

Zarhani

1 day ago

@lujiaosama 我一直用的 vscode 上的插件，没有安装 codex 独立应用

w568w

1 day ago

@lujiaosama 嗯嗯。GPT 5.5 肯定是比 Codex 5.3 或者 5.4 强的，尤其在反编译、绕过反爬虫和逆向软件这种安全任务上，明显比 Opus 4.6 强得多。

但 GPT 5.5 这个工程实践能力在我这里确实不咋行，而且输出口癖的风格还是没扭转过来，有时任务做的差、代码写得烂，又得意洋洋地总结自己做得如何如何好，有种面对伪人实习生的感觉，很火大。

tanrenye

1 day ago

@w568w 额，为什么会有必要用同一个 agent 对比，Claude 和 codex 都有针对性的优化，用原厂的 Claude code 和 codex 才是最好的，我自己的体感 5.5 和 Claude 相差不大，5.5 确实代码会嗦一些，但无伤大雅，5.5 会更倾向于跟项目现有的风格保持一致，Claude 会更倾向于他自己认为好的实现，但我平时更多用 codex ，因为 Claude 是公司中转的，很慢，但 Claude 有 1M 上下文这个在超长任务的时候会比 codex 有明显优势

zhangleijuly

1 day ago

可能是 opencode 的问题？模型只是一方面，用什么 agent 调用模型也不能说完全没影响

xialaoban

1 day ago

口癖这点真的无比认同

w568w

1 day ago

@tanrenye > 为什么会有必要用同一个 agent 对比

因为不用就会有人说「是不是 codex/claude code 的问题？你为什么不用一样的 harness ？你这吐槽没意义」，两头不讨好~

开玩笑，实际上的原因是我有两边的订阅，然后有一些自己的配置和 skills 之类的，opencode 允许我在同一个会话里面切换不同模型，比较方便。

AmericanExpress

1 day ago via iPhone

我们给的是 gpt 没有 claude，但 5.5 从刚出用到现在不记得有遇到过这些问题，不过我用的是英语

dingawm

1 day ago

口癖问题我在 5.5 上基本上没见过了，然后结构化表达能力在 codex 里还好，在网页上很糟糕，很喜欢换行，不知道为啥。擅自动手这个也很少遇到

neteroster

1 day ago via Android

5.5 是执行的神，opus 是规划的神，我不明白有什么冲突的

opus 无论 4.6,4.7,4.8 执行就是不行，我真的不明白，一份十分明确的 spec 给进去执行出来就还是会有明确漏项或者矛盾的地方，5.5 甚至 5.4 就完全不会有这种问题（这就是为啥 5.5 在 deepswe 之类的 bench 表现如此之好）

opus 的优点就是偏好对齐，还有讨论方案，这些微妙的地方，5.x 完全不行

neteroster

1 day ago via Android

@neteroster 还有一个和工程代码没那么相关的就是 opus 世界知识现在似乎已经是御三家最差了，5.5 长尾世界知识已经有半步 Gemini 水平了（甚至例如 ACG QA 这类以前 GPT 差的离谱的领域），再加上最前沿的数理知识/推理水平，导致写起研究类实验代码非常舒适，我不知道其他细分领域是否也会有这样的情况，但就我自己做数学交叉方向的经验来看，只要涉及数学推理的代码我只能相信 GPT 系列

drymonfidelia

1 day ago

gpt 如果你没明确禁止单文件最多 800 行，它甚至能给我干出 12 万行的 god class

linkopeneyes

19h 9m ago

我之前也是降智的一 b ，然后把全局 AGENTS.md 的规则全删了，发现他智商变高了

kkadmin

18h 46m ago

5.5 有开 20x pro 吗，没开的话，可以试试，我自己 5xpro 接 opencode, 公司给的 20x pro 接 ocdex, 比 free 的 5.5 强很多，plus 没开过，不评价。claude code 开的 pro,体感 opus 解决小任务和 ui 强于 5.5, 后端复杂任务弱于 5.5

w568w

16h 49m ago

@kkadmin 我开的确实是 5x Pro ，和 20x 会差很多吗

w568w

16h 43m ago

@neteroster > 5.5 是执行的神
> 一份十分明确的 spec 给进去执行出来就还是会有明确漏项或者矛盾的地方，5.5 甚至 5.4 就完全不会有这种问题

啊？我自己使用下来的体验是，GPT 才是漏项的那个，有时我要求他做 A+B ，他做完 A 就直接停下来了，还要殷勤地问我一句「要我继续做 B 吗」。反而是 Opus ，我记忆里没有遇到过你说的执行漏项问题

> opus 世界知识现在似乎已经是御三家最差了，5.5 长尾世界知识已经有半步 Gemini 水平了

这个我倒是没太多体验，最近主要做工程问题。Opus 和 GPT 都出现过知识上的问题（例如认为「现在 Python 3.12 及之后的版本都没发布」，未经允许擅自把我项目里所有 python 3.13 和之后的版本字符串全部改成 3.11 ）

之前也做过 AI 辅助研究方向的问题，但是不知道为何 GPT 总给我一种「注意力涣散」的感觉（高情商说就是「思维发散」），问 A 要答 ABCDE ，尝试了几次最后还是回到 Opus 了

neteroster

16h 40m ago

@w568w 那我很怀疑是你的 harness 问题了，GPT 在各种 bench 和体验反馈都是执行强，deepswe 有案例分析，原文
```
GPT implements exactly what's asked
On DeepSWE, GPT-5.5 has the lowest rate of missing stated behaviors of any configuration in the chart; GPT-5.4 sits just behind it.

GPT reads the prompt and the visible repository contract literally, and produces a patch that honors both. The behavior is consistent across runs: when several GPT trials attempt the same task, they tend to converge on the same interpretation of the prompt, suggesting this precision is a stable trait rather than per-run luck.

A natural follow-up would be to examine whether this precision comes paired with related stylistic traits, like overly defensive code, surplus error handling, or other markers of a tightly instruction-anchored coding style.
```

w568w

16h 32m ago

@neteroster 我觉得更可能的是 OpenAI 偷偷给我账号的模型降智或切换了。但我找不到任何证据，试了几个网上的测试例子都通过了

tengxun

13h 4m ago

你这比较的方法就不对, Claude 的模型,你要搭配官方工具 claude code 啊
gpt 的模型就要搭配 codex

gloeaerris

12h 5m ago

有 claude 模型就用 Claude Code,有 OpenAI 的模型就用 Codex ，opencode+claude 模型或者 gpt 不就是没苦硬吃嘛，人工降智

w568w

10h 23m ago

@tengxun @gloeaerris 今天尝试了一下 Codex ，体验如下：

1. 口癖略微好了一些，但依然存在。主要差异是模型不会输出大段文本了，所以不明显。

2. 同 1 ，GPT 喜欢说废话的现象基本解决一半了，但还是存在。

3. 有改善。依旧对着我的项目乱改。例如我要求他帮我「仅编译并推送一个 Docker 镜像」，他莫名其妙在我 Dockerfile ENTRYPOINT 和一大堆环境变量，又把我前面的 COPY xxx ./ 改成了 COPY . ./，也没有给任何解释。

我问他「为什么要这么改？」，他回答我：

「 COPY . ./ 没有强必要。最初这样改是为了让 build context 下的 runtime entrypoint 和后续文件布局更直接可见，但根本没必要。这会让 Docker cache 更差，我会改回 COPY xxx ./。」

然后就改回去了。吐了，没必要你改什么呢？

4. 还没有具体测试，虽然执行长时间任务的能力有显著提升，但他在任务中把我项目里的脚本重写了一遍（当然是在我没有要求的情况下），而且重写是错的，后面自己又回滚回去了。所以我谨慎不看好。

==============

总结：输出语气有改善，其他方面没看出和 OpenCode 有特别大的差别。