我的 GPT 5.5 怎么和你们的不一样？

最近经常看到有帖子回复说「 GPT 5.5 比 Claude Opus 强得多」「 GPT 5.5 更全能」（例如 t/1217986 ）。

但就我最近几周的使用体验，我感觉 GPT 5.5 相当不如人意啊。具体来说：

口癖和英文直译腔特别严重。虽然说比之前的 GPT 5.2~5.4 好一些，但也真的只是好一些，还是特别喜欢说「稳」「接」「拆」「跑」「闭环」「收敛」「它更像是……」「不是……而是……」「你说的完全正确」「先说结论」「列出“子弹”」「修改更“硬”」「要不要我……」「我立马开始……」。我尝试写了个 Skill 来试图修复它的回复风格，但也没有太大收益；
结构化表达能力不行。例如同样是对于一个代码仓库，询问一个需要深入代码研究的问题，Opus 4.8 能够简洁地以一两句话回复 Yes or No ，但 GPT 5.5 就要生成几千 tokens 的、包含四五点小标题的冗长回答，引用一大坨代码，而且每个分点的内容之间相互重叠，读起来全是噪音，心智负担特别高，而且相比于 Opus 的答案，也没有获得什么额外的有效信息量。搞得我现在都不敢问 GPT 5.5 问题了，读得头疼。
擅自动手，干一大堆根本没有要求的任务。这个我原以为只有 Gemini 之类的模型会犯，但最近 GPT 5.5 也开始频繁出现了：让他看个 review ，讨论一下如何解决，它直接自作主张一口气「阅读了 review 、研究了代码、选择了自己喜欢的解决方案、编写了 AI review 回复」。要不是我及时掐断，它都要调用 GitHub cli ，以我的身份去回复别人了；还有一次，要求它「阅读一个 bug 描述、定位代码问题」，结果它非要和我讨论「这个 bug 报告的英文措辞不对，应该如何改善」，就很……
代码风格很差。这个我不知道怎么描述，但是同样让 GPT 和 Opus 去写一个一两千行左右的复杂代码任务，GPT 给我写的代码修修补补之后，最终总是包含几十个零碎函数、一大堆无用的小作文注释、不对称的代码结构（例如有两个 Config 概念，GPT 非要写出一个 struct、一个 class）。这些也都算好的了，毕竟「又不是不能用」，关键是它写着写着会把自己也给绕进去，淹没在自己写的屎山注释和混乱结构里，最后失能得连自己写的细节都忘记了，debug 都做不好了；

而 Opus 不仅写出来的代码更有「人味」、符合我的预期，甚至有能力修复重构 GPT 写出的屎山，延长 GPT 的工作周期。有一次：GPT 5.5 挣扎两个小时，然后告诉我做不好的任务，Opus 花 15 分钟定位、直接几行代码解决了。

总之，我目前的体感能力大概是：

Opus 4.8 ≈ Opus 4.6 >> Opus 4.7 > GPT 5.5 ≈ MiMo 2.5 Pro >> GPT 5.2~5.4 >> Gemini 3.1 Pro

我的配置：OpenCode + ChatGPT Pro 官方订阅（无中转站），GPT 5.5 xhigh

如果各位有舒适的使用体验，也欢迎分享点 Harness 方面的干货，我是真没辙了。昨晚项目被 GPT 5.5 乱改一通，气得血压都高了

结构

自动

代码

36 replies • 2026-06-15 16:30:52 +08:00

409164

20 days ago

4.8max 秒杀 5.5xhigh

Ericcccccccc

20 days ago

用的是 codex 吗

w568w

20 days ago

@Ericcccccccc 主帖有写，是 OpenCode 。我不太方便把我的 Claude 订阅接入到 Codex ，所以两边都「客场作战」，用一模一样的 OpenCode 配置，来公平比较了。

Ericcccccccc

20 days ago

@w568w 这就不清楚了。codex 是很强的，我的体感是只要讲清楚代码都是一遍过的。（我没用过 cc

lujiaosama

20 days ago

@w568w OpenCode 的锅可不小。同样接入 DeepSeek ，用 Claude CLI 和 OpenCode 的表现截然不同。

Perry

20 days ago via iPhone

其实很看你的 Verification loop 如何

xuhuanzy

20 days ago

你是我第一个看到 opus 改 gpt 的屎山的, 正常来说只有 gpt 给 opus 擦屁股的份

w568w

20 days ago

@lujiaosama 你的意思是，OpenCode 在 Claude 上能发挥优势，但在 DeepSeek 、GPT 上都有极大劣势？我倒是也可以试试 Codex CLI 就是了

@Perry 此话怎讲？

w568w

20 days ago

@xuhuanzy 「正常来说」是怎么来说？能不能分享下你的配置？

felixcode

PRO

20 days ago

gpt 5.5 xhigh 感觉比 opus 4.7 max 稳很多。
opus 快是快，顾前不顾后，改了这个忘了那个。

Retas

20 days ago

codex 的 GPT-5.5 的语言表达感觉能追上 Opus-4.8 了，没有那么糟糕

w568w

20 days ago

@felixcode 我的体验正好和你相反：GPT 5.5 各种瞎 jb 改，不管上下文，甚至不管我前一句话的要求是什么，按自己喜好乱写； Opus 倒是总是瞻前顾后，每次 plan 时排出一堆 concerns 来

另外我感觉 Opus 4.7 明显有大幅度降智，Opus 4.8 才勉强回归到了 4.6 的能力水平，所以我把 GPT 5.5 和 Opus 4.7 放在一起

Zarhani

20 days ago

没用过 claude ，但是我这边倒是 GPT5.5 生成的代码质量还算不错，我都是先用 GPT5.5 生成大框架后用 deepseek v4 pro 来继续干自动完成的活的，（问就是 codex 限额太少）

Zarhani

20 days ago

@Zarhani deepseek 给我的感觉就是，只要上下文里面有已有高质量代码，就会变得巨聪明；如果上下文没有高质量代码就会没那么聪明；似乎这个模型底子不错但是后训练不足，小众需求代码不在知识库里面

lujiaosama

20 days ago

@w568w 我只是对比了 DeepSeek 在这俩上的表现。CodeX+GPT5.5 高有你说的问题特征，但是没有那么差,看描述像是 Codex5.3 之前比较容易出现的。

Zarhani

20 days ago

@lujiaosama 我一直用的 vscode 上的插件，没有安装 codex 独立应用

w568w

20 days ago

@lujiaosama 嗯嗯。GPT 5.5 肯定是比 Codex 5.3 或者 5.4 强的，尤其在反编译、绕过反爬虫和逆向软件这种安全任务上，明显比 Opus 4.6 强得多。

但 GPT 5.5 这个工程实践能力在我这里确实不咋行，而且输出口癖的风格还是没扭转过来，有时任务做的差、代码写得烂，又得意洋洋地总结自己做得如何如何好，有种面对伪人实习生的感觉，很火大。

tanrenye

20 days ago

@w568w 额，为什么会有必要用同一个 agent 对比，Claude 和 codex 都有针对性的优化，用原厂的 Claude code 和 codex 才是最好的，我自己的体感 5.5 和 Claude 相差不大，5.5 确实代码会啰嗦一些，但无伤大雅，5.5 会更倾向于跟项目现有的风格保持一致，Claude 会更倾向于他自己认为好的实现，但我平时更多用 codex ，因为 Claude 是公司中转的，很慢，但 Claude 有 1M 上下文这个在超长任务的时候会比 codex 有明显优势

zhangleijuly

20 days ago

可能是 opencode 的问题？模型只是一方面，用什么 agent 调用模型也不能说完全没影响

xialaoban

20 days ago

口癖这点真的无比认同

w568w

20 days ago

@tanrenye > 为什么会有必要用同一个 agent 对比

因为不用就会有人说「是不是 codex/claude code 的问题？你为什么不用一样的 harness ？你这吐槽没意义」，两头不讨好~

开玩笑，实际上的原因是我有两边的订阅，然后有一些自己的配置和 skills 之类的，opencode 允许我在同一个会话里面切换不同模型，比较方便。

AmericanExpress

20 days ago via iPhone

我们给的是 gpt 没有 claude，但 5.5 从刚出用到现在不记得有遇到过这些问题，不过我用的是英语

dingawm

20 days ago

口癖问题我在 5.5 上基本上没见过了，然后结构化表达能力在 codex 里还好，在网页上很糟糕，很喜欢换行，不知道为啥。擅自动手这个也很少遇到

neteroster

20 days ago via Android

5.5 是执行的神，opus 是规划的神，我不明白有什么冲突的

opus 无论 4.6,4.7,4.8 执行就是不行，我真的不明白，一份十分明确的 spec 给进去执行出来就还是会有明确漏项或者矛盾的地方，5.5 甚至 5.4 就完全不会有这种问题（这就是为啥 5.5 在 deepswe 之类的 bench 表现如此之好）

opus 的优点就是偏好对齐，还有讨论方案，这些微妙的地方，5.x 完全不行

neteroster

20 days ago via Android

@neteroster 还有一个和工程代码没那么相关的就是 opus 世界知识现在似乎已经是御三家最差了，5.5 长尾世界知识已经有半步 Gemini 水平了（甚至例如 ACG QA 这类以前 GPT 差的离谱的领域），再加上最前沿的数理知识/推理水平，导致写起研究类实验代码非常舒适，我不知道其他细分领域是否也会有这样的情况，但就我自己做数学交叉方向的经验来看，只要涉及数学推理的代码我只能相信 GPT 系列

drymonfidelia

20 days ago

gpt 如果你没明确禁止单文件最多 800 行，它甚至能给我干出 12 万行的 god class

linkopeneyes

20 days ago

我之前也是降智的一 b ，然后把全局 AGENTS.md 的规则全删了，发现他智商变高了

kkadmin

20 days ago

5.5 有开 20x pro 吗，没开的话，可以试试，我自己 5xpro 接 opencode, 公司给的 20x pro 接 ocdex, 比 free 的 5.5 强很多，plus 没开过，不评价。claude code 开的 pro,体感 opus 解决小任务和 ui 强于 5.5, 后端复杂任务弱于 5.5

w568w

20 days ago

@kkadmin 我开的确实是 5x Pro ，和 20x 会差很多吗😂

w568w

20 days ago

@neteroster > 5.5 是执行的神
> 一份十分明确的 spec 给进去执行出来就还是会有明确漏项或者矛盾的地方，5.5 甚至 5.4 就完全不会有这种问题

啊？我自己使用下来的体验是，GPT 才是漏项的那个，有时我要求他做 A+B ，他做完 A 就直接停下来了，还要殷勤地问我一句「要我继续做 B 吗」。反而是 Opus ，我记忆里没有遇到过你说的执行漏项问题

> opus 世界知识现在似乎已经是御三家最差了，5.5 长尾世界知识已经有半步 Gemini 水平了

这个我倒是没太多体验，最近主要做工程问题。Opus 和 GPT 都出现过知识上的问题（例如认为「现在 Python 3.12 及之后的版本都没发布」，未经允许擅自把我项目里所有 python 3.13 和之后的版本字符串全部改成 3.11 ）

之前也做过 AI 辅助研究方向的问题，但是不知道为何 GPT 总给我一种「注意力涣散」的感觉（高情商说就是「思维发散」），问 A 要答 ABCDE ，尝试了几次最后还是回到 Opus 了

neteroster

20 days ago

@w568w 那我很怀疑是你的 harness 问题了，GPT 在各种 bench 和体验反馈都是执行强，deepswe 有案例分析，原文
```
GPT implements exactly what's asked
On DeepSWE, GPT-5.5 has the lowest rate of missing stated behaviors of any configuration in the chart; GPT-5.4 sits just behind it.

GPT reads the prompt and the visible repository contract literally, and produces a patch that honors both. The behavior is consistent across runs: when several GPT trials attempt the same task, they tend to converge on the same interpretation of the prompt, suggesting this precision is a stable trait rather than per-run luck.

A natural follow-up would be to examine whether this precision comes paired with related stylistic traits, like overly defensive code, surplus error handling, or other markers of a tightly instruction-anchored coding style.
```

w568w

20 days ago

@neteroster 我觉得更可能的是 OpenAI 偷偷给我账号的模型降智或切换了。但我找不到任何证据，试了几个网上的测试例子都通过了

tengxun

20 days ago

你这比较的方法就不对, Claude 的模型,你要搭配官方工具 claude code 啊
gpt 的模型就要搭配 codex

gloeaerris

20 days ago

有 claude 模型就用 Claude Code,有 OpenAI 的模型就用 Codex ，opencode+claude 模型或者 gpt 不就是没苦硬吃嘛，人工降智

w568w

20 days ago

@tengxun @gloeaerris 今天尝试了一下 Codex ，体验如下：

1. 口癖略微好了一些，但依然存在。主要差异是模型不会输出大段文本了，所以不明显。

2. 同 1 ，GPT 喜欢说废话的现象基本解决一半了，但还是存在。

3. 没有改善。依旧对着我的项目乱改。例如我要求他帮我「仅编译并推送一个 Docker 镜像」，他莫名其妙在我 Dockerfile ENTRYPOINT 和一大堆环境变量，又把我前面的 COPY xxx ./ 改成了 COPY . ./，也没有给任何解释。

我问他「为什么要这么改？」，他回答我：

「 COPY . ./ 没有强必要。最初这样改是为了让 build context 下的 runtime entrypoint 和后续文件布局更直接可见，但根本没必要。这会让 Docker cache 更差，我会改回 COPY xxx ./。」

然后就改回去了。吐了，没必要你改什么呢？

4. 还没有具体测试，虽然执行长时间任务的能力有显著提升，但他在任务中把我项目里的脚本重写了一遍（当然是在我没有要求的情况下），而且重写是错的，后面自己又回滚回去了。所以我谨慎不看好。

==============

总结：输出语气有改善，其他方面没看出和 OpenCode 有特别大的差别。

deplives

10 days ago

正好相反，最近两周已经基本上完全切换到 codex 上了，opus4.8 已经跟弱智一样（都是官方订阅）
我都在想下月 opus 换成 pro 了
还有 claude 现在晚上模型的稳定性真的堪忧，一个简单的 superpower 任务能跑一个小时，大部分时间都是在发呆