最近我在死磕 AI Agent 的评估技术,看了市面上五花八门的评测榜单,又去深入研究了各种复杂的 AI 辅助评估体系(比如让 GPT-4 当裁判)、RAGAS 等等。
但看来看去,总觉得心里缺点什么。
现在的模型评测痛点真的太明显了:
- 指标太冰冷:各种学术化的分数堆叠在一起,当模型真正面对普通用户的闲聊、吐槽或者是各种稀奇古怪的需求时,那些干瘪的指标根本体现不出哪个模型更有“人情味”和灵性。
- AI 当裁判的偏见:用强模型做评委( LLM-as-a-Judge )不仅贵,而且这些模型特别喜欢“给自己打高分”(也就是自我偏好),或者是哪个答案长就选哪个。
- 真实声音太少:其实最有效、最能反映用户诉求的评测,就是真实用户的“用脚投票”( RLHF 人类偏好数据),然而市面上能让普通人低门槛参与进来的开源趣味测评并不多。
所以,我索性自己动手糊了一个小项目:AI Evolution Arena ( AI 进化竞技场)。
👉 体验地址在这里: https://arena.angrach.top/
简单来说,这是一个 大模型盲测与评测平台。
它是怎么玩的?
- 双开盲盒:当你进入竞技场,系统会自动在幕后随机抽选两个匿名大模型(可能是通义、GPT 、或者是某个黑马模型)。
- 匿名对战:你可以尽情地抛给它们任何问题——写代码、讲笑话、甚至情感咨询。两个模型会同时流式输出答案,这个时候你是看不到它们名字的。
- 必须站队:抛开了排版和品牌的先入为主,你只能单凭“谁这盘回答得好”来选择偏好(左边好 / 右边好 / 都好 / 都烂)。
- 揭开真名:当你投完票,才会揭晓这两位选手的“真面目”。那一刻你可能会惊呼:“什么?我刚才居然觉得 XXX 比 GPT 还要顺眼?”
我最初做这个项目的初衷真的就是为了 撕掉大模型的厂牌标签,回归到“回答内容本身”。
它没有任何登录注册的门槛,即开即用。所有的流式渲染、打字机效果我都做了仔细的优化,只为给你最流畅的对阵体验。希望你能来玩一玩,哪怕只是偶尔遇到了什么无解的问题,顺手丢进竞技场,看看两个神秘模型谁能给你更好的启示。
平台刚上线,后续我还会把胜率排行榜( Leaderboard )慢慢完善起来。你的每一次投票,其实都在帮我们沉淀一份最真实、最宝贵的人类偏好数据。