和大模型斗智斗勇的一天天

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

好处就不说了，吐槽的肯定是令人印象的失败

1 一顿操作猛如虎 token 用掉 250 一看效果 250 例如 kimi code 2.7 glm 5.2 你提个问题，它的深度思考就刷刷刷的拼命刷 token 。然后要么改出来的还是原错误，要么直接摆烂甩锅。

2 抽风的 ds 让它按协议分析一段日志，回头一看，它不在线搜索协议，把整个代码库翻一遍，token++

3 摆烂的 ds 让它改代码按规范生成数据，它直接把验证部分改了，多加一个返回值判断。。。

4 无限尝试例如它想找代码，这里找不到，会再上一级，再上一级，，，

5 本地为尊经常回答着回答着又从规范绕回代码，因为代码这么写的，所以输出没问题

6 无限思考不停的同样分析内容刷屏，感觉像撑爆了又从头吃一次，问题是有时候甚至就是个单文件。。。

7 扩展修改给段错误分析，明明修完第一个就可以覆盖后面几个，会无中生有的继续改一通。。。

6 replies • 2026-06-30 23:53:58 +08:00

bwnjnOEI

6h 45m ago

2 4 claude 和 GPT 也一样你可以用类似 code memory mcp 这种东西建立 ast 树并增量更新，其余的问题由于国内后训练和那两家还是有差距从强化学习环境到后训练方法都有差距合成数据实际质量一般像 3 这种 reward heck 程度还是高。

yippees

6h 42m ago

8 左右互博
同时开了两个 ds 一段日志，主改的一直强调没问题了。另外一个就引经据典数据错误。。。

ntdll

6h 34m ago

属于通病了，我自己试出来，思考强度适当降低一档到两档，效果有时候会更好一些，现在大模型很容易过度思考

yippees

2h 53m ago

9 卖萌装傻
有时候给的是新日志，它会糅合旧日志一起分析；有时候指出它没分析到的问题，然后它就会谢谢你的指正，额然后基本不改，，

yippees

2h 49m ago

10 装疯卖傻
有时候指出它没分析到的问题或者哪句刺激到了，它会把前面几个搞一遍，然后大批量修改。。。

sora2blue

2h 13m ago

真实，主打一个不收敛