如何提问以辨别真假 o1-preview？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 488 天前的主题，其中的信息可能已经有所发展或是发生改变。

如果通过一手渠道使用 o1-preview ，当然不用怀疑了。缺点：贵，额度又少。

用非大厂第三方的服务，又不确定是真的 o1-preview 还是 o1-mini ，4o 或者其他模型冒充的。感觉 20% 的答复质量优秀，问题一举解决； 20% 糟糕，交流限于死胡同，浪费时间； 60% 中规中矩，有一定帮助，可能需要多轮对话。每当它的回答很失水准的时候，我就怀疑这到底是真的 o1-preview 还是其他模型根据 o1-preview 的回答模式仿写的，或者真假掺杂？

用什么问题进行测试可以有效辨别 o1-preview 呢？

直接问「你用的什么 LLM 模型」肯定是不行的。LLM 并不能真的解答这种问题，它只是照本宣科 system prompt 。你愿意让它自认为是什么模型都可以，不可信。

有些问题可以用来辨别 gpt-4 ，那 o1-preview 呢？

o1-preview

测试

逻辑

3 条回复 • 2024-10-21 15:06:10 +08:00

yinmin

2024 年 10 月 20 日 via iPhone

openai 网站上有说明：o1 mini 的推理能力远高于 o1 preview ，只是 o1 preview 知识库更全。推荐用 o1 mini 。

o1 的流式效果蛮差的，基本上要等几十秒，然后结果快速出来。

o1 会产生中间 token ，所以消耗的 token 远大于回答 token 数。

把高中数学大题发给 o1 ，o1 解题比 gpt4o 强很多。

MossFox

2024 年 10 月 20 日

看这里的 12 楼：
https://v2ex.com/t/1075600#r_15306877

aiqinxuancai

2024 年 10 月 21 日

用国外的转发 https://openrouter.ai/