我的 GPT 5.5 怎么和你们的不一样? - V2EX
w568w

我的 GPT 5.5 怎么和你们的不一样?

  •  1
     
  •   w568w
    w568w 1 day ago 2308 views

    最近经常看到有帖子回复说「 GPT 5.5 比 Claude Opus 强得多」「 GPT 5.5 更全能」(例如 t/1217986 )。

    但就我最近几周的使用体验,我感觉 GPT 5.5 相当不如人意啊。具体来说:

    1. 口癖和英文直译腔特别严重。虽然说比之前的 GPT 5.2~5.4 好一些,但也真的只是好一些,还是特别喜欢说「稳」「接」「拆」「跑」「闭环」「收敛」「它更像是……」「不是……而是……」「你说的完全正确」「先说结论」「列出“子弹”」「修改更“硬”」「要不要我……」「我立马开始……」。我尝试写了个 Skill 来试图修复它的回复风格,但也没有太大收益;

    2. 结构化表达能力不行。例如同样是对于一个代码仓库,询问一个需要深入代码研究的问题,Opus 4.8 能够简洁地以一两句话回复 Yes or No ,但 GPT 5.5 就要生成几千 tokens 的、包含四五点小标题的冗长回答,引用一大坨代码,而且每个分点的内容之间相互重叠,读起来全是噪音,心智负担特别高,而且相比于 Opus 的答案,也没有获得什么额外的有效信息量。搞得我现在都不敢问 GPT 5.5 问题了,读得头疼。

    3. 擅自动手,干一大堆根本没有要求的任务。这个我原以为只有 Gemini 之类的模型会犯,但最近 GPT 5.5 也开始频繁出现了:让他看个 review ,讨论一下如何解决,它直接自作主张一口气「阅读了 review 、研究了代码、选择了自己喜欢的解决方案、编写了 AI review 回复」。要不是我及时掐断,它都要调用 GitHub cli ,以我的身份去回复别人了; 还有一次,要求它「阅读一个 bug 描述、定位代码问题」,结果它非要和我讨论「这个 bug 报告的英文措辞不对,应该如何改善」,就很……

    4. 代码风格很差。这个我不知道怎么描述,但是同样让 GPT 和 Opus 去写一个一两千行左右的复杂代码任务,GPT 给我写的代码修修补补之后,最终总是包含几十个零碎函数、一大堆无用的小作文注释、不对称的代码结构(例如有两个 Config 概念,GPT 非要写出一个 struct、一个 class)。这些也都算好的了,毕竟「又不是不能用」,关键是它写着写着会把自己也给绕进去,淹没在自己写的屎山注释和混乱结构里,最后失能得连自己写的细节都忘记了,debug 都做不好了;

    而 Opus 不仅写出来的代码更有「人味」、符合我的预期,甚至有能力修复重构 GPT 写出的屎山,延长 GPT 的工作周期。有一次:GPT 5.5 挣扎两个小时,然后告诉我做不好的任务,Opus 花 15 分钟定位、直接几行代码解决了。


    总之,我目前的体感能力大概是:

    Opus 4.8 ≈ Opus 4.6 >> Opus 4.7 > GPT 5.5 ≈ MiMo 2.5 Pro >> GPT 5.2~5.4 >> Gemini 3.1 Pro

    我的配置:OpenCode + ChatGPT Pro 官方订阅(无中转站),GPT 5.5 xhigh

    如果各位有舒适的使用体验,也欢迎分享点 Harness 方面的干货,我是真没辙了。昨晚项目被 GPT 5.5 乱改一通,气得血压都高了

    35 replies    2026-06-05 17:31:37 +08:00
    409164
        1
    409164  
       1 day ago
    4.8max 秒杀 5.5xhigh
    Ericcccccccc
        2
    Ericcccccccc  
       1 day ago
    用的是 codex 吗
    w568w
        3
    w568w  
    OP
       1 day ago
    @Ericcccccccc 主帖有写,是 OpenCode 。我不太方便把我的 Claude 订阅接入到 Codex ,所以两边都「客场作战」,用一模一样的 OpenCode 配置,来公平比较了。
    Ericcccccccc
        4
    Ericcccccccc  
       1 day ago
    @w568w 这就不清楚了。codex 是很强的,我的体感是只要讲清楚代码都是一遍过的。(我没用过 cc
    lujiaosama
        5
    lujiaosama  
       1 day ago
    @w568w OpenCode 的锅可不小。同样接入 DeepSeek ,用 Claude CLI 和 OpenCode 的表现截然不同。
    Perry
        6
    Perry  
       1 day ago via iPhone
    其实很看你的 Verification loop 如何
    xuhuanzy
        7
    xuhuanzy  
       1 day ago
    你是我第一个看到 opus 改 gpt 的屎山的, 正常来说只有 gpt 给 opus 擦屁股的份
    w568w
        8
    w568w  
    OP
       1 day ago
    @lujiaosama 你的意思是,OpenCode 在 Claude 上能发挥优势,但在 DeepSeek 、GPT 上都有极大劣势?我倒是也可以试试 Codex CLI 就是了

    @Perry 此话怎讲?
    w568w
        9
    w568w  
    OP
       1 day ago
    @xuhuanzy 「正常来说」是怎么来说?能不能分享下你的配置?
    felixcode
        10
    felixcode  
    PRO
       1 day ago
    gpt 5.5 xhigh 感觉比 opus 4.7 max 稳很多。
    opus 快是快,顾前不顾后,改了这个忘了那个。
    Retas
        11
    Retas  
       1 day ago
    codex 的 GPT-5.5 的语言表达感觉能追上 Opus-4.8 了,没有那么糟糕
    w568w
        12
    w568w  
    OP
       1 day ago
    @felixcode 我的体验正好和你相反:GPT 5.5 各种瞎 jb 改,不管上下文,甚至不管我前一句话的要求是什么,按自己喜好乱写; Opus 倒是总是瞻前顾后,每次 plan 时排出一堆 concerns 来

    另外我感觉 Opus 4.7 明显有大幅度降智,Opus 4.8 才勉强回归到了 4.6 的能力水平,所以我把 GPT 5.5 和 Opus 4.7 放在一起
    Zarhani
        13
    Zarhani  
       1 day ago
    没用过 claude ,但是我这边倒是 GPT5.5 生成的代码质量还算不错,我都是先用 GPT5.5 生成大框架后用 deepseek v4 pro 来继续干自动完成的活的,(问就是 codex 限额太少)
    Zarhani
        14
    Zarhani  
       1 day ago   1
    @Zarhani deepseek 给我的感觉就是,只要上下文里面有已有高质量代码,就会变得巨聪明;如果上下文没有高质量代码就会没那么聪明;似乎这个模型底子不错但是后训练不足,小众需求代码不在知识库里面
    lujiaosama
        15
    lujiaosama  
       1 day ago   1
    @w568w 我只是对比了 DeepSeek 在这俩上的表现。CodeX+GPT5.5 高有你说的问题特征,但是没有那么差,看描述像是 Codex5.3 之前比较容易出现的。
    Zarhani
        16
    Zarhani  
       1 day ago
    @lujiaosama 我一直用的 vscode 上的插件,没有安装 codex 独立应用
    w568w
        17
    w568w  
    OP
       1 day ago
    @lujiaosama 嗯嗯。GPT 5.5 肯定是比 Codex 5.3 或者 5.4 强的,尤其在反编译、绕过反爬虫和逆向软件这种安全任务上,明显比 Opus 4.6 强得多。

    但 GPT 5.5 这个工程实践能力在我这里确实不咋行,而且输出口癖的风格还是没扭转过来,有时任务做的差、代码写得烂,又得意洋洋地总结自己做得如何如何好,有种面对伪人实习生的感觉,很火大。
    tanrenye
        18
    tanrenye  
       1 day ago
    @w568w 额,为什么会有必要用同一个 agent 对比,Claude 和 codex 都有针对性的优化,用原厂的 Claude code 和 codex 才是最好的,我自己的体感 5.5 和 Claude 相差不大,5.5 确实代码会嗦一些,但无伤大雅,5.5 会更倾向于跟项目现有的风格保持一致,Claude 会更倾向于他自己认为好的实现,但我平时更多用 codex ,因为 Claude 是公司中转的,很慢,但 Claude 有 1M 上下文这个在超长任务的时候会比 codex 有明显优势
    zhangleijuly
        19
    zhangleijuly  
       1 day ago
    可能是 opencode 的问题?模型只是一方面,用什么 agent 调用模型也不能说完全没影响
    xialaoban
        20
    xialaoban  
       1 day ago
    口癖这点真的无比认同
    w568w
        21
    w568w  
    OP
       1 day ago
    @tanrenye > 为什么会有必要用同一个 agent 对比

    因为不用就会有人说「是不是 codex/claude code 的问题?你为什么不用一样的 harness ?你这吐槽没意义」,两头不讨好~

    开玩笑,实际上的原因是我有两边的订阅,然后有一些自己的配置和 skills 之类的,opencode 允许我在同一个会话里面切换不同模型,比较方便。
    AmericanExpress
        22
    AmericanExpress  
       1 day ago via iPhone
    我们给的是 gpt 没有 claude,但 5.5 从刚出用到现在不记得有遇到过这些问题,不过我用的是英语
    dingawm
        23
    dingawm  
       1 day ago
    口癖问题我在 5.5 上基本上没见过了,然后结构化表达能力在 codex 里还好,在网页上很糟糕,很喜欢换行,不知道为啥。擅自动手这个也很少遇到
    neteroster
        24
    neteroster  
       1 day ago via Android
    5.5 是执行的神,opus 是规划的神,我不明白有什么冲突的

    opus 无论 4.6,4.7,4.8 执行就是不行,我真的不明白,一份十分明确的 spec 给进去执行出来就还是会有明确漏项或者矛盾的地方,5.5 甚至 5.4 就完全不会有这种问题(这就是为啥 5.5 在 deepswe 之类的 bench 表现如此之好)

    opus 的优点就是偏好对齐,还有讨论方案,这些微妙的地方,5.x 完全不行
    neteroster
        25
    neteroster  
       1 day ago via Android
    @neteroster 还有一个和工程代码没那么相关的就是 opus 世界知识现在似乎已经是御三家最差了,5.5 长尾世界知识已经有半步 Gemini 水平了(甚至例如 ACG QA 这类以前 GPT 差的离谱的领域),再加上最前沿的数理知识/推理水平,导致写起研究类实验代码非常舒适,我不知道其他细分领域是否也会有这样的情况,但就我自己做数学交叉方向的经验来看,只要涉及数学推理的代码我只能相信 GPT 系列
    drymonfidelia
        26
    drymonfidelia  
       1 day ago   1
    gpt 如果你没明确禁止单文件最多 800 行,它甚至能给我干出 12 万行的 god class
    linkopeneyes
        27
    linkopeneyes  
       19h 9m ago
    我之前也是降智的一 b ,然后把全局 AGENTS.md 的规则全删了,发现他智商变高了
    kkadmin
        28
    kkadmin  
       18h 46m ago
    5.5 有开 20x pro 吗,没开的话,可以试试,我自己 5xpro 接 opencode, 公司给的 20x pro 接 ocdex, 比 free 的 5.5 强很多,plus 没开过,不评价。claude code 开的 pro,体感 opus 解决小任务和 ui 强于 5.5, 后端复杂任务弱于 5.5
    w568w
        29
    w568w  
    16h 49m ago
    @kkadmin 我开的确实是 5x Pro ,和 20x 会差很多吗
    w568w
        30
    w568w  
    OP
       16h 43m ago
    @neteroster > 5.5 是执行的神
    > 一份十分明确的 spec 给进去执行出来就还是会有明确漏项或者矛盾的地方,5.5 甚至 5.4 就完全不会有这种问题

    啊?我自己使用下来的体验是,GPT 才是漏项的那个,有时我要求他做 A+B ,他做完 A 就直接停下来了,还要殷勤地问我一句「要我继续做 B 吗」。反而是 Opus ,我记忆里没有遇到过你说的执行漏项问题

    > opus 世界知识现在似乎已经是御三家最差了,5.5 长尾世界知识已经有半步 Gemini 水平了

    这个我倒是没太多体验,最近主要做工程问题。Opus 和 GPT 都出现过知识上的问题(例如认为「现在 Python 3.12 及之后的版本都没发布」,未经允许擅自把我项目里所有 python 3.13 和之后的版本字符串全部改成 3.11 )

    之前也做过 AI 辅助研究方向的问题,但是不知道为何 GPT 总给我一种「注意力涣散」的感觉(高情商说就是「思维发散」),问 A 要答 ABCDE ,尝试了几次最后还是回到 Opus 了
    neteroster
        31
    neteroster  
       16h 40m ago
    @w568w 那我很怀疑是你的 harness 问题了,GPT 在各种 bench 和体验反馈都是执行强,deepswe 有案例分析,原文
    ```
    GPT implements exactly what's asked
    On DeepSWE, GPT-5.5 has the lowest rate of missing stated behaviors of any configuration in the chart; GPT-5.4 sits just behind it.

    GPT reads the prompt and the visible repository contract literally, and produces a patch that honors both. The behavior is consistent across runs: when several GPT trials attempt the same task, they tend to converge on the same interpretation of the prompt, suggesting this precision is a stable trait rather than per-run luck.

    A natural follow-up would be to examine whether this precision comes paired with related stylistic traits, like overly defensive code, surplus error handling, or other markers of a tightly instruction-anchored coding style.
    ```
    w568w
        32
    w568w  
    OP
       16h 32m ago
    @neteroster 我觉得更可能的是 OpenAI 偷偷给我账号的模型降智或切换了。但我找不到任何证据,试了几个网上的测试例子都通过了
    tengxun
        33
    tengxun  
       13h 4m ago
    你这比较的方法就不对, Claude 的模型,你要搭配官方工具 claude code 啊
    gpt 的模型就要搭配 codex
    gloeaerris
        34
    gloeaerris  
       12h 5m ago
    有 claude 模型就用 Claude Code,有 OpenAI 的模型就用 Codex ,opencode+claude 模型或者 gpt 不就是没苦硬吃嘛,人工降智
    w568w
        35
    w568w  
    OP
       10h 23m ago
    @tengxun @gloeaerris 今天尝试了一下 Codex ,体验如下:

    1. 口癖略微好了一些,但依然存在。主要差异是模型不会输出大段文本了,所以不明显。

    2. 同 1 ,GPT 喜欢说废话的现象基本解决一半了,但还是存在。

    3. 有改善。依旧对着我的项目乱改。例如我要求他帮我「仅编译并推送一个 Docker 镜像」,他莫名其妙在我 Dockerfile ENTRYPOINT 和一大堆环境变量,又把我前面的 COPY xxx ./ 改成了 COPY . ./,也没有给任何解释。



    我问他「为什么要这么改?」,他回答我:

    「 COPY . ./ 没有强必要。最初这样改是为了让 build context 下的 runtime entrypoint 和后续文件布局更直接可见,但根本没必要。这会让 Docker cache 更差,我会改回 COPY xxx ./。」

    然后就改回去了。吐了,没必要你改什么呢?

    4. 还没有具体测试,虽然执行长时间任务的能力有显著提升,但他在任务中把我项目里的脚本重写了一遍(当然是在我没有要求的情况下),而且重写是错的,后面自己又回滚回去了。所以我谨慎不看好。

    ==============

    总结:输出语气有改善,其他方面没看出和 OpenCode 有特别大的差别。
    About     Help     Advertise     Blog     API     FAQ     Solana     888 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 61ms UTC 19:55 PVG 03:55 LAX 12:55 JFK 15:55
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86