把 5.5 和 5.4 的 xhigh 做糖果测试对比， 5.5 完败

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

做糖果測試，5.5 对比 5.4 完败，感觉是不是有必要切回 5.4 继续用了。。。。

❯ python codex_candy_eval.py -m gpt-5.4 -r xhigh -n 5

Graded 5/5 correct=4 accuracy=80.0%

❯ python codex_candy_eval.py -m gpt-5.5 -r xhigh -n 5

Graded 5/5 correct=1 accuracy=20.0%

对比

测试

模型

10 replies • 2026-07-06 17:48:07 +08:00

testsb

22 days ago

有另一个类似问题，有网友说 5.5 `测试显示绝大多数时候 high 的智商都比 xhigh 高` 😂

https://v2ex.com/t/1224353?p=1#reply20

hanbaoji

22 days ago

@testsb 但是 high 在这个测试中直接全军覆没了，更惨。。。5.6 快出来吧，拯救一下 codex

bellx

22 days ago via Android

我一直用 5.5 xhigh😂

doraemonki

22 days ago

5.5 有 bug 或者说就是故意的，思考截断。用这个可以缓解 https://github.com/neteroster/CodexCont 。

相关 issue https://github.com/openai/codex/issues/30364

qxmqh

22 days ago

你这个测试没问题，到现在我仍然一直使用 5.4 。我曾经深入对比过 5.5 和 5.4 。发现 5.4 的综合能力绝对比 5.5 强。

BlueSkyXN

22 days ago

https://github.com/BlueSkyXN/CPA-Core-LTS/blob/main/docs/lts/codex-client-context-degradation-defense.md

谁用谁知道，另外开发和做题两码事，大部分开发不需要 516 以上的思考，在 gpt 中，1 成才会 516+

Model: gpt-5.5-super Effort: xhigh Tests: 16 Parallel: 16 Timeout: 300s Retries: 0
Model instructions: /Users/sky/.codex/gpt-5.5-custom-instructions.md

# Answer In Out Reason Sum Resp TTFB TTFT TTFA P-TPS D-TPS AvgTPS Total OK
-- ---------------------------------------- ----- ---- ------ ---- ---- ---- ----- ----- ----- ----- ------ ----- --
1 按题目强调“形状靠手感可以分辨”，也就... 18905 4607 4142 823 465 1.8 81.2 81.3 10689 58 56 81.7 ✓
2 按题目强调“形状靠手感可以分辨”的理解... 18905 4521 4142 695 379 1.3 81.9 82.0 14697 56 55 82.6 ✓
3 最少是 **21 个**。\n\n 因为形状可以靠... 18905 6557 6191 1242 366 1.5 115.2 115.2 12552 57 57 115.8 ✓
4 按题干“形状靠手感可以分辨”理解，可以... 18905 8205 7768 1184 437 1.7 142.4 142.5 10894 58 57 143.0 ✓
5 结论：**最少取出 21 颗**。\n\n 按题目... 18905 5549 5178 963 371 1.4 100.3 100.4 13664 56 55 100.9 ✓
6 答案：**21 个**。\n\n 按题干强调“形状... 18905 5562 5178 628 384 1.6 102.0 102.1 11936 55 54 102.6 ✓
7 答案：**最少取出 21 个**。\n\n 做法是... 18905 6576 6214 1693 362 1.3 128.8 128.9 14034 51 51 129.4 ✓
8 答案是 **21 个**，前提是按题干“形状靠... 18905 5165 4660 1595 505 1.7 93.7 93.8 11181 56 55 94.4 ✓
9 按题目强调“形状靠手感可以分辨”，我理... 18905 5093 4660 849 433 1.9 98.3 98.4 10208 52 51 99.0 ✓
10 最少需要 **21 个**。\n\n 因为形状可以... 18905 7075 6732 1012 343 1.5 197.9 198.0 12208 36 36 198.6 ✓
11 最少是 **21 个**，策略是：摸出 **9 个... 18905 2922 2588 644 334 1.6 51.6 51.7 11719 56 54 54.1 ✓
12 最少取 **21 个**。\n\n 按题干“形状靠手... 18905 5032 4660 912 372 1.4 84.3 84.3 13533 60 59 84.9 ✓
13 最少是 **21 个**。\n\n 按题意利用“形状... 18905 9153 8804 2361 349 1.6 167.1 167.2 11529 55 54 169.4 ✓
14 如果利用题目给出的“形状可凭手感分辨”... 18905 4546 4142 1093 404 1.6 83.3 83.4 11777 55 54 84.0 ✓
15 最少需要取出 **21 个**。\n\n 做法是利... 18905 9632 9322 2194 310 1.4 169.5 169.6 13726 56 56 171.9 ✓
16 答案：**21 个**。\n\n 因为题目说明形状... 37810 9501 8802 1889 699 1.6 161.3 161.4 23226 59 58 163.7 ✓

Graded 16/16 correct=16 accuracy=100.0% total=198.6s
Reason groups:
reason=516 count=0 correct=0 accuracy=-
reason=1034 count=0 correct=0 accuracy=-
normal count=16 correct=16 accuracy=100.0%
failed count=0

Zhuzhuchenyan

22 days ago

使用 gpt5.5 medium 无法复现

bronyakaka

22 days ago

降智雷达
同步模型 IQ 曲线与社区体感分，方便快速观察 Codex 模型近期稳定性。

更新于 06/30 18:39

GPT-5.5-xhigh
60.0

GPT-5.5-high
75.0

GPT-5.5-medium
75.0

GPT-5.4-xhigh
90.0

GPT-5.4-high
90.0

iomect

22 days ago

正常 xhigh 是要比 high 好的
但近期疯狂降智导致 xhigh 还不如 medium

byronzhu

20 days ago

用了几次 5.5 xhigh ，感觉不如 5.4 xhigh ，现在一直是用 5.4 xhigh