• 请不要在回答技术问题时复制粘贴 AI 生成的内容
w568w
V2EX  ›  程序员

GPT-5.5 真能让人用得舒心吗?怎么在我这跟弱智一样

  •  1
     
  •   w568w ·
    w568w · 10h 31m ago · 4398 views

    纯吐槽贴。太长不看:听不懂人话

    本贴接续 https://www.v2ex.com/t/1218023 ,因为上个帖子里有人说「不用 Codex ,模型性能当然差!你的抱怨都是无效的」,所以我最近换用了 Codex ,继续吐槽几个例子。

    以下例子均使用:官网 GPT Pro 账号(让美国朋友帮忙注册的)+ 最新版 Codex + 开 xhigh (有思考过程) 。已用几个账号质量检测站检测过「是否是满血模型」,均为 100% 通过

    1. 要求它「合并代码,先运行编译测试再 commit 」。我刚说完这句,还在 Skill 里特意强调了一遍。结果它改完代码什么都不跑、什么都不查,转头直接 commit 了。指令遵循能力令人汗颜。

    2. 要求它「把一个代码文件复制到另一个位置」。结果它不去调 cp 命令,硬是用 Write 工具,花了几分钟把一个几千行的文件用 LLM 逐字「复制」了一遍…… 不是,我的 token 是大风刮来的吗?

    3. 要求它「复现并研究一个用户 bug 报告」,报告大意是「启动应用时会正确跟随系统的颜色主题;但启动之后再改系统主题,必须重启应用才生效」。结果它写了个只测「应用启动时能否读取主题」的调试用例,跑完发现「启动时确实能读取主题」,就告诉我无法复现、然后放弃了。说人话就是,报告明明说「 A 场景正常、B 场景有 Bug 」,它却只测了 A 场景,发现正常(这不废话吗),就认定报告无效…… 这是智力正常的 LLM 能干出来的事?

    4. 这个在上个帖子里也提过。让它看一份 review 、和我讨论怎么解决,它直接自作主张,一口气「读完了 review 、研究了代码、挑了个自己喜欢的方案、还写好了 review 回复」。要不是我及时掐断,它都要调用 GitHub CLI 、以我的身份去回复别人了。另一次,要求它「读一份 bug 描述、定位代码问题」,结果它非要跟我讨论「这个 bug 报告的英文措辞不准,该怎么改」,就很……无语。

    5. 在另一个项目里三番五次强调「要用 uv run 和 pyproject.toml 管理依赖」。它就是不听,非要用 pip 、用系统 python 、用 conda 。再三要求改正,它输出道歉,却连自己刚写的「 uv pip 」都不去改成「 uv add 」。我不说,它就永远不改、也不会主动提醒我。上一个例子非要干没有要求它干的事,这个例子明明是它分内的事,它却什么都不问、不说、不做了

    心累啊。

    至于「你怎么不装 Superpowers / 不用 XXX Harness / 不用 XXX 策略」,就这第一个例子,完全干净的上下文都能给我执行一半、丢一半,再多的 Prompt 感觉也没法补救这种例子了。

    75 replies    2026-06-16 00:48:35 +08:00
    jinsongzhaocn
        1
    jinsongzhaocn  
       10h 30m ago
    你理解错了,必须要加 skills 。
    jinsongzhaocn
        2
    jinsongzhaocn  
       10h 29m ago
    Anthropic 内部披露,没有 Skills ,Claude 在内部评测里的准确率不超过 21%;加上 Skills 之后,稳定冲到 95%以上,部分领域接近 99%。而且 95%的 Skills 还需要一直升级,否则甚至会掉到 65%。就凭这些信息,你还懒得折腾 skill ?
    Haku
        3
    Haku  
       10h 28m ago   ❤️ 1
    用一下国产的,你就会发现确实很聪明
    w568w
        4
    w568w  
    OP
       10h 28m ago
    @jinsongzhaocn 唉唉。我当然用了 Skills 啊,我说「不用提这些」的意思,不是「我一个都没试过,我猜肯定不好用」,而是我全都试了一遍,情况没有改善……
    w568w
        5
    w568w  
    OP
       10h 27m ago
    @jinsongzhaocn 你真的认真读帖子了吗?就这第一个例子,你告诉我什么样的 skill 才能让它知道「当用户要求你做 A 、B 、C 的时候,你应该做 ABC ,而不是只做 C 」?
    canyue7897
        6
    canyue7897  
       10h 24m ago
    op 是直接用追求目标模式还是开的 plan 模式?如果直接追求目标,可能会出现这种情况,遇到过跳过指令的情况,不过也没那么夸张。但是开了计划,按道理来说,不应该。
    jinsongzhaocn
        7
    jinsongzhaocn  
       10h 23m ago
    试试主动唤醒 skill ,先规划后执行呢?比如:
    /superpowers:brainstorming <跟上你的 md 文件名和说明>
    或者 mattpocock-skills 的 /diagnose , /tdd
    walkon
        8
    walkon  
       10h 23m ago
    AGENTS.md 用起来,Plan 用起来。
    w568w
        9
    w568w  
    OP
       10h 22m ago
    @Haku 是的,我现在发现 GLM5.2 和 MiMo 2.5 Pro 都比 GPT-5.5 好用,至少

    (1) 能听明白我想做什么;
    (2) 自己不明白的东西,知道要先问我;
    (3) 没有要求它做的,绝对不做;
    (4) 有基本的逻辑思维。

    GPT-5.5 感觉有时候真的是小脑发育不完全了,逻辑关系都能弄错(测试 A 场景正常,认定 B 场景没事)
    canyue7897
        10
    canyue7897  
       10h 22m ago
    我咋感觉你的降智了,你看看你的思考时间是多久?我的思考很少低于 5 分钟的。
    jinsongzhaocn
        11
    jinsongzhaocn  
       10h 21m ago
    有时候确实需要啰嗦很多它才会改方向,比如:
    UI 调试:`playwright-cli open http://127.0.0.1:8069/ --headed`, 注意有-cli 后缀, 不是 playwright.在 Playwright 官方的最新的架构中,playwright-cli 和旧版的含义完全不同,它和 playwright/mcp 正好构成了 AI 浏览器的两大演进方向.这里的 playwright-cli 并不是我们以前理解的“用来跑 npx playwright test 的那个终端命令”,而是一个全新的全局 NPM 包(@playwright/cli )。它是微软专门为了解决 AI 智能体(如 Claude Code 、GitHub Copilot Workspace 、Aider 等)在进行浏览器自动化时极其消耗 Token 的痛点而重新设计的.
    w568w
        12
    w568w  
    OP
       10h 19m ago
    @walkon 谢谢,我用了的。

    我还可以再举一例:AGENTS.md 里有要求:

    - `find` or Glob or `glob` MUST be used with `-print0` and `xargs` must be used with `-0` to handle file names with spaces or special characters. MUST use `-xdev` to avoid descending into slow network filesystems. NEVER find or glob or search files without `-xdev`.

    因为我们的项目里面挂载了网络文件系统,模型有时候喜欢直接全局搜索,会非常慢。

    至今为止,GPT-5.5 遵从过这个指令 0 次…… 我觉得我这段话应该已经写得够清楚了,对吧
    jinsongzhaocn
        13
    jinsongzhaocn  
       10h 17m ago
    @canyue7897 别最后发现是网络问题,:-D
    canyue7897
        14
    canyue7897  
       10h 17m ago
    @w568w 你是不是写的东西太多了?本来上下文就 258K ,你如果用了 sub2api 之类的,而不是原生的话,真实推理没有多少 K ,那就只剩压缩了。工具调用都占用几十 K 的上下文。
    jinsongzhaocn
        15
    jinsongzhaocn  
       10h 16m ago
    @w568w 你用的 opencode 吗?如果是 cc ,默认不会读 AGENTS.md,需要指明给它
    canyue7897
        16
    canyue7897  
       10h 16m ago
    @jinsongzhaocn 我没有开倍速,基本都是五分钟。网络应该不至于,网络用了多年了。
    qwerasdf123
        17
    qwerasdf123  
       10h 16m ago
    看了你的两个帖子,感觉你的 gpt5.5 确实不正常,至于降智还是什么原因,需要具体排查一下
    lmmlwen
        18
    lmmlwen  
       10h 15m ago
    你这个,还停留在上下文约束上面
    w568w
        19
    w568w  
    OP
       10h 14m ago
    @jinsongzhaocn 谢谢,你这里我有一点认同的,就是确实是需要啰嗦。

    怎么说呢,感觉 GPT 在我这缺乏那种基本的逻辑思考能力,就像一辆不停撞墙的车,不出两轮对话就会把自己引到死胡同或者错误、疏漏的执行路径上。需要不停地手动 steer ,steer 完他才会正常几轮,然后又接着对着墙猛冲……

    如果多改正它几次,它就变得畏手畏脚,什么都不敢提、不敢问了,而且每轮对话里都要反复和我强调「我不会 xxx 、xxx 、xxx 」( xxx 是我前面改正它的内容),哭笑不得。
    lscho
        20
    lscho  
       10h 14m ago
    不明白什么场景怎么用的。。。在我的场景 GPT-5.5 + codex 比 cc + opus4.8 都好用
    canyue7897
        21
    canyue7897  
       10h 14m ago
    @jinsongzhaocn 他用的 codex ,codex 的上下文挺短的。我的是放在 gemini.md 中,codex 自己都去读了,没有遇到不读的情况。不过可能 gemini.md 要求更加严格一些?
    jinsongzhaocn
        22
    jinsongzhaocn  
       10h 12m ago
    还有个可能是通过代理调用,结果代理给的是假冒的,代理是可以随意修改模型名称的。
    w568w
        23
    w568w  
    OP
       10h 8m ago
    @canyue7897 @qwerasdf123 @jinsongzhaocn 是的,降智是我现在最怀疑的原因,关键是:各种模型验证站都测不出来!发个帖也是看看有没有朋友遇到类似的问题。

    我这里思考时间比较波动,有时候 10 分钟,有时候就一句话结束。但确实思考长的时候,主帖提到的情况会少一些。

    我是直接用的官网账号,在模型验证站上测模型验证的时候,通过的是我自己的 AxonHub 。

    @lscho 没有特殊场景,也没有加什么野鸡 skills 、或超长的 agents.md 、或用一个已经特别长的 context 不压缩,就是正常地下载 codex 、安装、登录,正常地提问和命令,就出现了这里提到的大部分问题了。
    shineonme
        24
    shineonme  
       10h 8m ago
    感觉用的跟你不是同一个 gpt-5.5 xhigh

    第 1 点,我跑的项目没有做过特殊要求,每次都会做一遍编译测试,有时只改了很小的点,也会跑一遍完整的编译测试

    第 5 点,特地在 AGENTS.md 写了使用 conda 环境的 python ,用到目前没有出现过偏差的情况,写入 AGENTS.md 之前是会调用系统默认的 python, uv
    canyue7897
        25
    canyue7897  
       10h 6m ago
    我是直接用的官网账号,在模型验证站上测模型验证的时候,通过的是我自己的 AxonHub 。你这个是 web 转 api 么?如果是,那 web 中间的很多工具调用你这个工具肯定不能完整模拟,很多都丢弃了,那你根本就是断断续续的得到信息,你直接用 codex 试试,不会出现你说的问题的。codex 还是很遵守指令的,有的时候过于遵守了,我都感觉没啥主动性。
    darklowly
        26
    darklowly  
       9h 58m ago
    codex 体感确实很差的。我也搞不懂为什么那么多人喜欢 codex 。

    经常会出现鸡同鸭讲,还有输出的内容看着都头疼
    codingerj
        27
    codingerj  
       9h 56m ago
    官网 GPT Pro 账号 为什么还要用号质量检测站「是否是满血模型」?
    w568w
        28
    w568w  
    OP
       9h 54m ago
    @codingerj 因为想看看是不是降智了,就像楼上很多人怀疑的那样。

    并非:买了 GPT Pro 账号 -> 用号质量检测站「是否是满血模型」

    而是:买了 GPT Pro 账号 -> 体验很差,遇到了各种问题 -> 发帖求助 -> 评论怀疑是被 OpenAI 路由到降智模型 -> 实在没办法,用质量检测站检测一下
    ebushicao
        29
    ebushicao  
       9h 45m ago
    如果你没有说谎,且不是登录账号之后又配置了第三方中转站,那只能是模型降智了,但理论上即便降智也不至于发生 1 和 2 的情况,你要不要检查一下你的设置,全局的 skill ,全局的 AGENTS.md 文件,项目内的 AGENTS.md
    defaw
        30
    defaw  
       9h 44m ago
    最近疑似挪算力去训练 gpt5.6 了,我个人体感很差,一个已经给定了逆运动学代码的程序,我让 gpt5.5 medium 写可视化,连打字纠正带截图反馈改了六遍才写对。
    defaw
        31
    defaw  
       9h 43m ago
    补充:正价 plus 不是中转,codex cli 最新版
    daj2
        32
    daj2  
       9h 39m ago
    要不我在梯子上给你开个反代你试试是不是模型降智的问题? 127***[email protected] 这个邮箱你还用的话我发你
    YangWaleed
        33
    YangWaleed  
       9h 36m ago
    用 codex + gpt-5.5 确实没遇到这么弱智的时候,甚至我只用 medium 和 high

    OP 你都装了什么 skill ?会不会是上下文被污染了?
    plp
        34
    plp  
       9h 35m ago
    通过你的描述 感觉是你描述的问题比较大
    比如相关背景,相关技术架构说清楚了吗? 使用某些功能某些工具你指定了吗?
    输入输出你指定了吗?
    总体原则与注意事项你给出了吗?

    AI 确实很强,但也不是无脑使用,需要使用者自己能正确写出提示词
    tengxun
        35
    tengxun  
       9h 34m ago
    codex cli 不如 codex 客户端
    aimuz
        36
    aimuz  
       9h 29m ago   ❤️ 1
    我也是订阅了 GPT Pro 账户,之前一直订阅的是 Claude Max ,听他们说 GPT 5.5 很强,到期后就换成 GPT Pro 了,我实际用下来 Codex 的体验比不上 Claude 。用的是 Codex 桌面版。

    可能是经常使用 Claude ,然后换成 Codex 后各种不适应。高强度用了两天,直接申请退款了。
    w568w
        37
    w568w  
    OP
       9h 27m ago
    @daj2 在用的。你方便的话可以给我发个临时的 key ,感谢
    w568w
        38
    w568w  
    OP
       9h 24m ago
    @YangWaleed 目前有这些全局生效的,大部分都是我自己写的:



    从上到下是:代码重构指南、深度研究、下载模型、如何 update 一个 fork 、如何重构 PR 、如何写研究 Proposal 、网上搜索、文章润色、如何用微信推送通知

    上下文的话,我看模型似乎没有读过 skills 。就算读过,我也很难想象这些特定功能的手写 Skills 会特别影响模型能力……
    w568w
        39
    w568w  
    OP
       9h 22m ago
    @plp > AI 确实很强,但也不是无脑使用,需要使用者自己能正确写出提示词

    但我说的这几个 case ,除了 GPT 以外都没有犯过(当然其他模型也有其他的问题,但不至于有这么多低级错误)

    > 使用某些功能某些工具你指定了吗

    主贴已经说得非常非常清楚了吧。Skills 、Prompt 、Agents.md ,甚至完全清楚无歧义的指令就在上一句,都能执行错。我没招了……
    daj2
        40
    daj2  
       9h 21m ago
    @w568w #37 发了
    w568w
        41
    w568w  
    OP
       9h 20m ago
    @daj2 感谢朋友,已经收到了。我今晚有空测试一下,明天给你反馈。
    dingawm
        42
    dingawm  
       9h 17m ago   ❤️ 1
    估计是你的问题,要真这么差,OpenAI 可以 Close 了
    至于是不是因为 IP 降智,我不太清楚 OpenAI 是否会针对 codex desktop 使用根据 IP 进行降智,但是我之前刚开 GPT Pro 的时候,我发现在网页上用 Pro 模型,总是不思考就回答问题,正常来说应该会思考好几分钟,我才意识到可能是被降智了,之后换了个节点之后就正常了。
    noahliaszn
        43
    noahliaszn  
       9h 11m ago
    因为之前有一篇文章讲过 gpt-5.5 的 prompt 实践 反正我按照官方修改了 agents.md 几乎没做蠢事
    https://developers.openai.com/api/docs/guides/prompt-guidance?model=gpt-5.5
    duuu
        44
    duuu  
       9h 5m ago
    把项目的 AGENTS.md 发出来大家看看吧
    euronx
        46
    euronx  
       8h 46m ago
    gpt5.5 在我这就是个聪明逼,95%的任务都干的又好又快,每次改完代码还会 review 告诉我本次修改是否有 breaking change
    superhero007
        47
    superhero007  
       8h 30m ago
    我也觉得 codex 一般,输出内容很难看,说了半天看不懂绕来绕去在说什么。用 GLM5.1 的体感都更好一点.
    huang86041
        48
    huang86041  
       8h 29m ago
    是不是挪算力 切换量化版本了,我也感觉确实智商低了不少.
    Clannad0708
        49
    Clannad0708  
       8h 27m ago
    不清楚,我用起来没啥问题
    NerbraskaGuy
        50
    NerbraskaGuy  
       8h 26m ago
    个人感觉写功能逻辑没有 5.3codex 好用,只是在给他图片让他还原样式这方面确实比 5.3codex 进步很多
    ericguo
        51
    ericguo  
       8h 22m ago
    你要先/init 另外删掉你所有的 skills ,系统给的肯定用不上的 doc ,excel 之类的也可以删掉,然后你直接说你要什么就好了(前提你自己会编程)

    Codex 我已经用了半年了,我现在只用这个,Plus 对我来说都够。
    GodIsJasonBourne
        52
    GodIsJasonBourne  
       8h 5m ago
    10 有 89 没有开执行本地命令的权限罢?"要求它「把一个代码文件复制到另一个位置」。结果它不去调 cp 命令,硬是用 Write 工具"
    aimuz
        53
    aimuz  
       7h 57m ago
    @dingawm 那我感觉我的 Pro 被降智商了,之前试用了 Plus 感觉没有那么差。升级 Pro 后就不行了
    Anonono
        54
    Anonono  
       7h 54m ago
    最近一周也感觉 5.5 没以前聪明,但是大部分体现在复杂任务上,这种直接 CP 的问题我还没留意过。
    ovtfkw
        55
    ovtfkw  
       7h 51m ago via iPhone
    @w568w 你不是用的官网的 codex 和官网的模型吗,并没有通过中转站吧?
    那也会碰到降智吗?
    rangoBen
        56
    rangoBen  
       7h 47m ago
    好比你买了一台电脑,你明明都知道配置单,配置不低,价格还贵。全世界都在买它,用它,反响不错。
    你拿回家,捣鼓了两天,你说:这电脑性能真好用吗?玩 3A 这么卡?
    因为你觉得:至于「你怎么不装 Superpowers / 不用 XXX Harness / 不用 XXX 策略」,就这第一个例子,完全干净的上下文都能给我执行一半、丢一半,再多的 Prompt 感觉也没法补救这种例子了。
    因为什么?
    agent 、skill 、提示词相当于是电脑的驱动
    建议去看吴恩达的提示词的课, 免费且深入浅出。

    不过你这个不是个例,我们称之为前 AI 时代跟后 AI 时代的人,上手 AI 是不一样的。
    从 cha gpt 一路用到现在,提示词,skill 这些的使用思路,已经形成肌肉记忆了。
    tanrenye
        57
    tanrenye  
       7h 29m ago
    @jinsongzhaocn 纯粹好奇,如果这些 skill 如此重要,那么为什么 A 社不让 Claude code 内置呢
    icyalala
        58
    icyalala  
       7h 17m ago
    等一下,你用的官网的 Codex ,为什么要搞什么账号检测站?
    你是真的 Codex 还是通过什么 API 接入呢?
    w568w
        59
    w568w  
    OP
       7h 1m ago via Android
    @rangoBen 可见学习 AI 会降低人的阅读能力和理解能力。因为你除了最后一句话之外,已经看不下去任何字了。

    你甚至不愿意看完整个帖子,看看我到底有没有提到 skill ,以及我回复里提到写了多少个 skill 。

    @icyalala 请往上翻,找到并读我对 codingerj 的回复。你是倒果为因了。

    是因为发现不对,怀疑 OpenAI 官方在降质,所以才去用检测站查,来辅证;而不是我买到手(或者是买了中转站),所以闲的没事干去用检测站检测。
    buruoyanyang
        60
    buruoyanyang  
       6h 54m ago
    同感,也是正价开了 GPT 账号,感觉远远不如中转的 Claude 啊,我现在拿他当豆包用,下个月不续了。
    w568w
        61
    w568w  
    OP
       6h 49m ago
    @GodIsJasonBourne > 10 有 89 没有开执行本地命令的权限罢?"要求它「把一个代码文件复制到另一个位置」。结果它不去调 cp 命令,硬是用 Write 工具"

    是开了的,因为我下一句就批评了它,让它不要用 Write 改用 bash 。然后它立刻就用 bash 执行 cp 了。可见并不是没能力,而是没意愿。

    然后我也问了他「为什么不用 cp ?你复述一下我的前面的命令」?他的回答是这样的:

    ===
    你给我的命令是:
    “把现在这个 /xx/xx 复制到本地的真实 provider 目录下。”

    更具体地说:
    - 我把“同步目标文件”误判成“继续修改目标文件”。
    ...
    ===

    这里也挺哭笑不得的,回答完全不知所云:它辩解自己做错的理由是:「你说的是“同步”,不是“复制”」,但自己在一句话之前刚刚复述过的就是「你的命令是:把现在这个 /xx/xx 复制到本地的真实 provider 目录下」,根本没有「同步」这两个字。
    desstiony
        62
    desstiony  
       6h 45m ago
    完全没遇到过
    ty29022
        63
    ty29022  
       6h 35m ago
    codex 没有 Write 工具, 只有 apply_patch, 你们在说啥?
    w568w
        64
    w568w  
    OP
       6h 32m ago
    @ty29022 "Write" 是指用来写( Write )文件的工具,而不是「那个名字叫 "Write" 的工具」,在 Codex 里相关工具就是 "apply_patch"。

    至于为什么这么叫,大概是受 Claude Code 影响吧。如果真要较真的话,"Bash" 也应该叫 "shell" 或 "local_shell"。
    Liftman
        65
    Liftman  
       6h 26m ago
    很确定你是降智。。。。。
    HappyFox
        66
    HappyFox  
       5h 56m ago   ❤️ 1
    1 、很明显降智,也就是使用的是量化版本模型,而非原始模型。检测站只能检测是否是 GPT5.5 ,厂家有没有给你量化是另一回事。而且厂商可以确定量化的比例,也就是多次请求中,在厂商认为不影响“服务质量”的前提下给你替换部分返回结果。具体原理参考某些中转站掺假

    2 、这事无解,除非你用的云服务厂商托管的私有部署版本,否则在新模型上市前一两个月,当前版本的 SOTA 模型都会降智、节省算力用于训练新模型。用任何原厂的 coding 套餐都有这个问题,只有企业/api 用户可以豁免
    bjy1
        67
    bjy1  
       5h 17m ago
    有人要求高,有人要求低,项目复杂度也不一样。
    确实有莫名其妙的问题,经常把对话内容写页面上。
    还好比我强就让它写,它晕了我自己写
    v2gba
        68
    v2gba  
       5h 13m ago   ❤️ 1
    skills 也好 harness 也好 什么 loop/goal/.md 等等

    都是模型能力不够的弥补手段

    同一个项目前几天 Fable 能用的时候,我白天远程遥控开发了十几个 feature,回家检查了下一个 bug 都没.

    但在这之前的(除了刚出来 1~2 个月的时候),和这之后的 Opus 都是半死不活的样子.

    写进 CLAUDE.md 的规则不执行(context 只用了 10 几%)
    5 轮对话里,第二轮纠正的事情(必须用模拟器测试完之后在交付给我), 第 5 轮又忘记了 (当第五轮 context 也只有 30 多%)

    只能说这些模型厂商非要降智,开头说的那些也很难救回来.

    要么用 API (API 应该不降智吧) 要么一直用刚发布的模型(LOL. 临时威力加强版)
    unusualcat
        69
    unusualcat  
       5h 2m ago
    我用 gpt5.4 中。codex 桌面客户端,写程序做任务都做的很好。你的大概率是降智了,否则没道理 5.5 还不行的。
    我用 5.4 纯粹是因为 5.5 额度烧太快,而 5.4 也可以满足我的需求。
    Thesara
        70
    Thesara  
       4h 54m ago   ❤️ 1
    5.5 很喜欢头痛砍头,感觉不如 5.3
    HappyAndSmile
        71
    HappyAndSmile  
       4h 20m ago
    我支持 op ,最近的 gpt 5.5 确实像个弱智一样,让遵守我的守则文件,非要不遵守,非要画蛇添足,乱加文件
    lesismal
        72
    lesismal  
       4 hrs ago   ❤️ 1
    应该是降智了吧,前阵子不是误封、然后又发福利一波,没有免费的午餐。

    而且不只是 GPT ,claude 最近体感也降智了。

    以前很多一把过的东西,现在半天不过,反反复复。

    每次遇到这种观念,我都休息几天再看。
    cheng6563
        73
    cheng6563  
       2h 57m ago
    你账号降智了。
    另外,轮降智水平,我 opus 第一个不符:

    Q:你用的什么终端?
    A:你好,我用的终端。

    还有,AI 路走歪了,我提醒一下:
    Q:你别缠着 XXX 了,不是这边问题
    A:我知道了,我绕太久了。已经搞完了,不提了,还有别的问题吗?
    Q:sbsbsb
    A:(思考:用户打了一串乱码)没事,等您有需要随时来。
    gadfly3173
        74
    gadfly3173  
       1h 24m ago
    我觉得 GPT5.5 的指令遵循确实不如 5.4 或者其他模型,比如我经常使用的 code-review-excellence skill 中对最终报告的输出有格式要求,GPT5.5 是最偏离格式要求的模型,Opus 4.8 或者 GLM-5.1 、Deepseek V4 Pro 等都可以很好地遵循输出的格式,5.4 会稍微改变一些,但也是基本遵守的。
    liuliuliuliu
        75
    liuliuliuliu  
    PRO
       1h 11m ago
    不是,我不用 skills 都没这么弱智啊
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1160 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 118ms · UTC 17:59 · PVG 01:59 · LAX 10:59 · JFK 13:59
    ♥ Do have faith in what you're doing.