miusmile

codex 与 Claude 相比,仍然存在差距

  •  
  •   miusmile · 15h 38m ago · 4958 views

    昨天晚上一个问题,使用 codex 进行修复,修了 A bug ,出现了 B bug ,修了 B ,出现 A 。反反复复实在受不了,尝试 Claude 4.8 ,一次性完美解决。

    35 replies    2026-06-17 19:28:04 +08:00
    JYii
        1
    JYii  
       15h 35m ago   ❤️ 6
    你的论据,有没有可能反过来也成立
    connor123
        2
    connor123  
       15h 33m ago
    身边统计学,太片面
    ffLoveJava
        3
    ffLoveJava  
       15h 28m ago
    我也遇到了 最简单的需求 cc 竟然只处理 db 而忽略了 rustfs 中的文件,简直逆天。
    同样的 prompt 复制给 codex 让他列出计划和代码 完美实现
    你怎么说
    jlctboy
        4
    jlctboy  
       15h 27m ago
    我们老的 java,项目,codex 每次都是一把过
    xiaoz
        5
    xiaoz  
       15h 21m ago via Android
    一个例子说明不了什么。
    KOMA1NIUJUNSHENG
        6
    KOMA1NIUJUNSHENG  
       15h 20m ago
    典型的幸存者偏差
    ExplodingDragon
        7
    ExplodingDragon  
       15h 16m ago
    {a} 与 {b} 相比,仍然存在差距

    昨天晚上一个问题,使用 {a} 进行修复,修了 A bug ,出现了 B bug ,修了 B ,出现 A 。反反复复实在受不了,尝试 {b} ,一次性完美解决。


    可在模板填入任何模型/客户端 ,适用于任何上下文(
    Sundayz
        8
    Sundayz  
       15h 10m ago
    Claude 与 codex 相比,仍然存在差距

    昨天晚上一个问题,使用 Claude 进行修复,修了 A bug ,出现了 B bug ,修了 B ,出现 A 。反反复复实在受不了,尝试 gpt 5.5 ,一次性完美解决。
    zisen
        9
    zisen  
       15h 9m ago
    我昨晚 debug ,qwen3.7 一把过,opus4.6 反反复复搞不清重点,同样的提示词
    tho
        10
    tho  
       15h 9m ago
    虽然我是 claude 重度用户,但必须要承认偶尔有几次 claude 反复没解决的,用 5.5 一次解决了。
    Paii
        11
    Paii  
       15h 2m ago
    跟你的体验恰好相反
    cinhoo
        12
    cinhoo  
       14h 53m ago via iPhone
    @ExplodingDragon 难怪/goal 一直结束不了,修了 10 个小时的 bug🐶
    andrew2558
        13
    andrew2558  
       14h 47m ago
    说过很多遍了,这种情况,在头部几个 ai 中都存在,一个 ai 修一个问题反复解决不了,换一个很大概率一下就好了。
    Rat3
        14
    Rat3  
       14h 45m ago
    论证水平跟问 AI 是什么模型来确定蒸馏了什么一样
    itskingname
        15
    itskingname  
       14h 34m ago
    我刚好反过来。我这里有一个网页,渲染了一张卡片。在网页上卡片非常好看,但是使用 html2canvas 导出图片,会发现文字错位,元素没有加载完成。使用 claude code + opus 4.8 改了半天,它把 html2canvas 改为了 html-2-image,结果导出来就是空白图片了。然后让它修了十多次,每次都说修好了,每次导出还是空白图片。

    然后我把代码回滚,把使用 Codex + GPT 5.5 xhigh ,相同的让它修复 bug 的 prompt ,一次改好,导出的图片和网页上显示的一模一样。
    miusmile
        16
    miusmile  
    OP
       14h 28m ago
    可能是我之前一直用的 Claude code ,调教的比较好,codex 刚用不久
    m952755064
        17
    m952755064  
       13h 42m ago
    我之前都开了一个月,感觉 4.7 4.8 都不如 5.5,5.4 的时候确实不如 claude 好使
    SayHelloHi
        18
    SayHelloHi  
       13h 35m ago
    Clade 4.8 和 GPT 5.5

    用他们 2 个 相互解决 最终问题解决了 😀
    crocoii
        19
    crocoii  
       13h 3m ago via Android
    claude 解决不了用 codex ,codex 解决不了用 claude 。整体还是 codex 干活利索。
    jinsongzhaocn
        20
    jinsongzhaocn  
       12h 43m ago
    有可能 claude 继续使用了 codex 生成的上下文,现在的模型评测也都没有说明他们的测试环境是否干净,在 claude 下面,我甚至删除了~/.claude/projects 目录里项目目录,重启再次切换模型供应商,还是发现了残留记忆,说明还有全局记忆库存在,简单的切换模型不能证明什么
    alexluo1
        21
    alexluo1  
       12h 5m ago
    我最近发现 opus 4.8 太慢了,慢到令人发指
    calvinHxx
        22
    calvinHxx  
       11h 41m ago
    瑜与亮 罢了 都有好用 都有不好用的时候。
    woaipaojiao
        23
    woaipaojiao  
       11h 26m ago
    反过来的也有体感。之前 claude4.8 也容易死循环,容易破防开骂,但是用了 5.5 感觉言简意赅。不过确实,两个都有好用和不好用得时候。
    jackerbauer
        24
    jackerbauer  
       11h 25m ago
    一次说明不了任何问题
    prosgtsr
        25
    prosgtsr  
       11h 25m ago
    claude 4.6 出的时候,网上一顿吹
    claude 4.7 出的时候,网上一顿吹
    claude 4.8 出的时候,没看到吹的
    claude fable 5 出的时候,网上一顿吹
    sagnitude
        26
    sagnitude  
       11h 20m ago
    模型本身会变,没有参考和比较的价值,只能靠体感,谁也不知道今天轮到谁降智了
    gloeaerris
        27
    gloeaerris  
       11h 12m ago
    用的是同一套提示词和上下文吗?不会是拿一个用了很久的 A+历史积累对比 B+一片空白历史对话对比吧,对比就在同一环境和参数下,不要田忌赛马对比
    gaxila
        28
    gaxila  
       11h 11m ago
    都是工具罢了, 现在两个混着用, 有些难题, 不提供指导性的意见都没有用
    409164
        29
    409164  
       11h 8m ago
    不降智的情况下,claude 解决问题的能力的确比 codex 强,不过现在的情况是,有能力会把这两个都订阅然后互相校准
    Linioi
        30
    Linioi  
       10h 26m ago
    Claude 文风比 Codex 舒服多了,并且 Codex 的代码总是过度防御,真的很难放心让它写啊,每次还是得 review 一下它的测试代码。
    jjx
        31
    jjx  
       10h 16m ago
    claude 很多时候用慢来保证正确性
    cosmosz
        32
    cosmosz  
       10h 10m ago
    就这正文严谨性,完全没有参考价值😓。
    codex 用的什么 model ,什么 thinking effort 。

    修完 A 加个测试,管你用哪家的 model ,还会再现?
    KuAoaoaoao
        33
    KuAoaoaoao  
       8h 21m ago
    做过一个对比,用 opus4.8 和 gpt5.5 思考程度都是高,处理一批 excel 数据,三个文件,这三个文件中的数据是能互相关联的,A->B->C ,如果有空缺,则让 ai 补充完整,保持关联的完整性,然后两个 ai 的处理结果大差不差,不过区别就是关联 C 和 B 的时候,opus 会把一些可能属于 C 的 B 进行关联,而 gpt 会把直接为 C 生成新的 B 。感觉 opus 的思考比较多,更人性化一点
    abel533
        34
    abel533  
       7h 49m ago
    @JYii 反过来成立,以前用 copilot cli 时,这俩模型互相帮助。
    blufaux
        35
    blufaux  
       5h 54m ago via iPhone
    似乎 claude 对于物理的理解有些偏差
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1287 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 174ms · UTC 17:22 · PVG 01:22 · LAX 10:22 · JFK 13:22
    ♥ Do have faith in what you're doing.