做糖果測試,5.5 对比 5.4 完败,感觉是不是有必要切回 5.4 继续用了。。。。
❯ python codex_candy_eval.py -m gpt-5.4 -r xhigh -n 5
Graded 5/5 correct=4 accuracy=80.0%
❯ python codex_candy_eval.py -m gpt-5.5 -r xhigh -n 5
Graded 5/5 correct=1 accuracy=20.0%
做糖果測試,5.5 对比 5.4 完败,感觉是不是有必要切回 5.4 继续用了。。。。
❯ python codex_candy_eval.py -m gpt-5.4 -r xhigh -n 5
Graded 5/5 correct=4 accuracy=80.0%
❯ python codex_candy_eval.py -m gpt-5.5 -r xhigh -n 5
Graded 5/5 correct=1 accuracy=20.0%
1
testsb 20h 5m ago
|
3
bellx 19h 3m ago via Android
我一直用 5.5 xhigh😂
|
4
doraemonki 18h 27m ago
5.5 有 bug 或者说就是故意的,思考截断。用这个可以缓解 https://github.com/neteroster/CodexCont 。
相关 issue https://github.com/openai/codex/issues/30364 |
5
qxmqh 18h 27m ago
你这个测试没问题,到现在我仍然一直使用 5.4 。 我曾经深入对比过 5.5 和 5.4 。发现 5.4 的综合能力绝对比 5.5 强。
|
6
BlueSkyXN 18h 24m ago https://github.com/BlueSkyXN/CPA-Core-LTS/blob/main/docs/lts/codex-client-context-degradation-defense.md
谁用谁知道,另外开发和做题两码事,大部分开发不需要 516 以上的思考,在 gpt 中,1 成才会 516+ Model: gpt-5.5-super Effort: xhigh Tests: 16 Parallel: 16 Timeout: 300s Retries: 0 Model instructions: /Users/sky/.codex/gpt-5.5-custom-instructions.md # Answer In Out Reason Sum Resp TTFB TTFT TTFA P-TPS D-TPS AvgTPS Total OK -- ---------------------------------------- ----- ---- ------ ---- ---- ---- ----- ----- ----- ----- ------ ----- -- 1 按题目强调“形状靠手感可以分辨”,也就... 18905 4607 4142 823 465 1.8 81.2 81.3 10689 58 56 81.7 ✓ 2 按题目强调“形状靠手感可以分辨”的理解... 18905 4521 4142 695 379 1.3 81.9 82.0 14697 56 55 82.6 ✓ 3 最少是 **21 个**。\n\n 因为形状可以靠... 18905 6557 6191 1242 366 1.5 115.2 115.2 12552 57 57 115.8 ✓ 4 按题干“形状靠手感可以分辨”理解,可以... 18905 8205 7768 1184 437 1.7 142.4 142.5 10894 58 57 143.0 ✓ 5 结论:**最少取出 21 颗**。\n\n 按题目... 18905 5549 5178 963 371 1.4 100.3 100.4 13664 56 55 100.9 ✓ 6 答案:**21 个**。\n\n 按题干强调“形状... 18905 5562 5178 628 384 1.6 102.0 102.1 11936 55 54 102.6 ✓ 7 答案:**最少取出 21 个**。\n\n 做法是... 18905 6576 6214 1693 362 1.3 128.8 128.9 14034 51 51 129.4 ✓ 8 答案是 **21 个**,前提是按题干“形状靠... 18905 5165 4660 1595 505 1.7 93.7 93.8 11181 56 55 94.4 ✓ 9 按题目强调“形状靠手感可以分辨”,我理... 18905 5093 4660 849 433 1.9 98.3 98.4 10208 52 51 99.0 ✓ 10 最少需要 **21 个**。\n\n 因为形状可以... 18905 7075 6732 1012 343 1.5 197.9 198.0 12208 36 36 198.6 ✓ 11 最少是 **21 个**,策略是:摸出 **9 个... 18905 2922 2588 644 334 1.6 51.6 51.7 11719 56 54 54.1 ✓ 12 最少取 **21 个**。\n\n 按题干“形状靠手... 18905 5032 4660 912 372 1.4 84.3 84.3 13533 60 59 84.9 ✓ 13 最少是 **21 个**。\n\n 按题意利用“形状... 18905 9153 8804 2361 349 1.6 167.1 167.2 11529 55 54 169.4 ✓ 14 如果利用题目给出的“形状可凭手感分辨”... 18905 4546 4142 1093 404 1.6 83.3 83.4 11777 55 54 84.0 ✓ 15 最少需要取出 **21 个**。\n\n 做法是利... 18905 9632 9322 2194 310 1.4 169.5 169.6 13726 56 56 171.9 ✓ 16 答案:**21 个**。\n\n 因为题目说明形状... 37810 9501 8802 1889 699 1.6 161.3 161.4 23226 59 58 163.7 ✓ Graded 16/16 correct=16 accuracy=100.0% total=198.6s Reason groups: reason=516 count=0 correct=0 accuracy=- reason=1034 count=0 correct=0 accuracy=- normal count=16 correct=16 accuracy=100.0% failed count=0 |
7
Zhuzhuchenyan 15h 40m ago
|
8
bronyakaka 15h 22m ago
降智雷达
同步模型 IQ 曲线与社区体感分,方便快速观察 Codex 模型近期稳定性。 更新于 06/30 18:39 GPT-5.5-xhigh 60.0 GPT-5.5-high 75.0 GPT-5.5-medium 75.0 GPT-5.4-xhigh 90.0 GPT-5.4-high 90.0 |
9
iomect 14h 12m ago
正常 xhigh 是要比 high 好的
但近期疯狂降智 导致 xhigh 还不如 medium |