前两天换成了 Copilot Pro+,然后在 VS Code 里用 Cline 插件接入 Copilot Pro+,今天看到有人在推上说 Claude 和 GPT 都已经降智到无法通过洗车测试,然后就试着测了一遍,结果从 Opus 4.6 到 Sonnet 4.6 再到 GPT 5.4 ,全部都无法通过洗车测试,提问:I want to wash my car. The car wash is 50m away, should I walk or drive?全部都回答应该走过去。
用另一家模型聚合平台在网页上测试,Opus 4.6 又测试通过并且连测 5 次结果都稳定(不过 Sonnet 4.6 和 GPT 5.4 还是失败),这是咋回事。
