codex 与 Claude 相比，仍然存在差距

miusmile · 2026-06-17T01:43:54Z

昨天晚上一个问题，使用 codex 进行修复，修了 A bug ，出现了 B bug ，修了 B ，出现 A 。反反复复实在受不了，尝试 Claude 4.8 ，一次性完美解决。

Codex

Claude

差距

39 replies • 2026-06-18 14:06:39 +08:00

1

JYii

Jun 17

7

你的论据，有没有可能反过来也成立

2

connor123

Jun 17

身边统计学，太片面

3

ffLoveJava

Jun 17

我也遇到了最简单的需求 cc 竟然只处理 db 而忽略了 rustfs 中的文件，简直逆天。
同样的 prompt 复制给 codex 让他列出计划和代码完美实现
你怎么说

4

jlctboy

Jun 17

我们老的 java,项目，codex 每次都是一把过

5

xiaoz

Jun 17 via Android

一个例子说明不了什么。

6

KOMA1NIUJUNSHENG

Jun 17

典型的幸存者偏差

7

ExplodingDragon

Jun 17

{a} 与 {b} 相比，仍然存在差距

昨天晚上一个问题，使用 {a} 进行修复，修了 A bug ，出现了 B bug ，修了 B ，出现 A 。反反复复实在受不了，尝试 {b} ，一次性完美解决。

可在模板填入任何模型/客户端，适用于任何上下文（

8

Sundayz

Jun 17

Claude 与 codex 相比，仍然存在差距

昨天晚上一个问题，使用 Claude 进行修复，修了 A bug ，出现了 B bug ，修了 B ，出现 A 。反反复复实在受不了，尝试 gpt 5.5 ，一次性完美解决。

9

zisen

Jun 17

我昨晚 debug ，qwen3.7 一把过，opus4.6 反反复复搞不清重点，同样的提示词

10

tho

Jun 17

虽然我是 claude 重度用户，但必须要承认偶尔有几次 claude 反复没解决的，用 5.5 一次解决了。

11

Paii

Jun 17

跟你的体验恰好相反

12

cinhoo

Jun 17 via iPhone

@ExplodingDragon 难怪/goal 一直结束不了，修了 10 个小时的 bug🐶

13

andrew2558

Jun 17

说过很多遍了，这种情况，在头部几个 ai 中都存在，一个 ai 修一个问题反复解决不了，换一个很大概率一下就好了。

14

Rat3

Jun 17

论证水平跟问 AI 是什么模型来确定蒸馏了什么一样

15

itskingname

Jun 17

我刚好反过来。我这里有一个网页，渲染了一张卡片。在网页上卡片非常好看，但是使用 html2canvas 导出图片，会发现文字错位，元素没有加载完成。使用 claude code + opus 4.8 改了半天，它把 html2canvas 改为了 html-2-image,结果导出来就是空白图片了。然后让它修了十多次，每次都说修好了，每次导出还是空白图片。

然后我把代码回滚，把使用 Codex + GPT 5.5 xhigh ，相同的让它修复 bug 的 prompt ，一次改好，导出的图片和网页上显示的一模一样。

16

miusmile

OP

Jun 17

可能是我之前一直用的 Claude code ，调教的比较好，codex 刚用不久

17

m952755064

Jun 17

我之前都开了一个月，感觉 4.7 4.8 都不如 5.5,5.4 的时候确实不如 claude 好使

18

SayHelloHi

Jun 17

Clade 4.8 和 GPT 5.5

用他们 2 个相互解决最终问题解决了 😀

19

crocoii

Jun 17 via Android

claude 解决不了用 codex ，codex 解决不了用 claude 。整体还是 codex 干活利索。

20

jinsongzhaocn

Jun 17

有可能 claude 继续使用了 codex 生成的上下文，现在的模型评测也都没有说明他们的测试环境是否干净，在 claude 下面，我甚至删除了~/.claude/projects 目录里项目目录，重启再次切换模型供应商，还是发现了残留记忆，说明还有全局记忆库存在，简单的切换模型不能证明什么

21

alexluo1

Jun 17

我最近发现 opus 4.8 太慢了，慢到令人发指

22

calvinHxx

Jun 17

瑜与亮罢了都有好用都有不好用的时候。

23

woaipaojiao

Jun 17

反过来的也有体感。之前 claude4.8 也容易死循环，容易破防开骂，但是用了 5.5 感觉言简意赅。不过确实，两个都有好用和不好用得时候。

24

jackerbauer

Jun 17

一次说明不了任何问题

25

prosgtsr

Jun 17

claude 4.6 出的时候，网上一顿吹
claude 4.7 出的时候，网上一顿吹
claude 4.8 出的时候，没看到吹的
claude fable 5 出的时候，网上一顿吹

26

sagnitude

Jun 17

模型本身会变，没有参考和比较的价值，只能靠体感，谁也不知道今天轮到谁降智了

27

gloeaerris

Jun 17

用的是同一套提示词和上下文吗？不会是拿一个用了很久的 A+历史积累对比 B+一片空白历史对话对比吧，对比就在同一环境和参数下，不要田忌赛马对比

28

gaxila

Jun 17

都是工具罢了, 现在两个混着用, 有些难题, 不提供指导性的意见都没有用

29

409164

Jun 17

不降智的情况下，claude 解决问题的能力的确比 codex 强，不过现在的情况是，有能力会把这两个都订阅然后互相校准

30

Linioi

Jun 17

Claude 文风比 Codex 舒服多了，并且 Codex 的代码总是过度防御，真的很难放心让它写啊，每次还是得 review 一下它的测试代码。

31

jjx

Jun 17

claude 很多时候用慢来保证正确性

32

cosmosz

Jun 17

就这正文严谨性，完全没有参考价值😓。
codex 用的什么 model ，什么 thinking effort 。

修完 A 加个测试，管你用哪家的 model ，还会再现？

33

KuAoaoaoao

Jun 17

做过一个对比，用 opus4.8 和 gpt5.5 思考程度都是高，处理一批 excel 数据，三个文件，这三个文件中的数据是能互相关联的，A->B->C ，如果有空缺，则让 ai 补充完整，保持关联的完整性，然后两个 ai 的处理结果大差不差，不过区别就是关联 C 和 B 的时候，opus 会把一些可能属于 C 的 B 进行关联，而 gpt 会把直接为 C 生成新的 B 。感觉 opus 的思考比较多，更人性化一点

34

abel533

Jun 17

@JYii 反过来成立，以前用 copilot cli 时，这俩模型互相帮助。

35

blufaux

Jun 17 via iPhone

似乎 claude 对于物理的理解有些偏差

36

wm5d8b

Jun 18 via Android

kimi 写的屎山代码让 cc+4.8 修，claude 直接读了开发文档，说 perfect 。再次要求其读代码，也看不出什么毛病。换用 codex+5.5 ，一次修好通过测试

37

derrick5788

Jun 18

双持最优解

38

the9art

Jun 18

我跟你是相反，我怎么感觉 A 处的 Claude Code 很反智呢，模型没有问题，但是他总是怀疑我的环境没有部署好。我怀疑我的上传文件有问题，就是不怀疑它写的代码有问题。然后我给他反复反复反复把环境给他看确认之后。他终于把那个小 bug 改掉了。但是我只要把这个文件传给 Codex ，指出 bug 他一次性改好，从来不怀疑我。
a➗就是想方设法的烧 token

39

crocoii

Jun 18 via Android

今天 opus 的表现，能把我键盘摔掉，一个小 bug ，这货竟然看只看文档，不看代码说已经修好了。