目前我已知的 ai 排行榜, 那个是更可信的, 国内 ai 哪个是体验接近的 - V2EX

Home Sign Up Sign In

This topic created in 84 days ago, the information mentioned may be changed or developed.

https://artificialanalysis.ai/leaderboards/models

https://livebench.ai/#/?highunseenbias=true

https://www.superclueai.com/generalpage

ai 排行与对比

https://arena.ai/text

Supplement 1 · Apr 3

经评论区提醒加:

https://vercel.com/ai-gateway/leaderboards

Supplement 2 · Apr 3

(arena)用一段简单代码对比测试(prompt 由 claude opus 生成, 不完全测试), 简单评价(模型均为最新最好)一下:
顶级: claude > chatgpt
优等: gemini > grok
对比 1: glm-5 > qwen
对比 2: kimi > longcat mimo
劣等: 豆包, deepseek, minimax, ernie

推荐使用方式:
关注模型评测网站, 选择表现好的实际网站, 在实际网站上选择表现好的最新最好模型, 不要使用快速模式.
生活化选择手机的语音 ai 或者豆包/品牌自带, 工作用顶级优等模型, 学习用优等及国产顶级模型, 龙虾关注次等模型厂商的 coding plan, 不要关注过于小众表现差的模型.

7 replies • 2026-04-16 02:32:25 +08:00

1

avenger

Apr 3

这个也可以参考

https://vercel.com/ai-gateway/leaderboards

2

kuhung

Apr 3

我认为 arena 的主观打分盲测更靠谱只要有排行，就免不了那啥
要不就是使用主流最新模型，其他的看看就得了

3

SekiBetu

Apr 14

个人体感
国外：Claude > Gemini 3.1 pro preview > ChatGPT
国内：豆包 > 千问 > kimi

4

SekiBetu

Apr 14

↑ Claude 因为是写代码专用，而且获取账号比较麻烦，也可以省略

5

SekiBetu

Apr 14

ChatGPT 5.4 感觉有点拉了，再不推出点猛药可以不续费了，专心用谷歌的 gemini 了

6

SekiBetu

Apr 14

其实可以发现，除了 Claude 这种黑马以外，AI 主要看谁手里的信息多，谷歌的信息浓度绝对比 openai 多很多，国内的抖音也是互联网信息浓度最高的，所以 Gemini 和豆包可以逐步领先

7

dwhh

OP

Apr 16

@SekiBetu 豆包比 kimi 强, 可能是看他输出信息多, 然而多试试就知道, kimi 输出短小精悍, 豆包与 ChatGPT 网页版一样输出得又长阅读性又差, 而且是稍微复杂一点就抓耳挠腮自欺欺人

About · Help · Advertise · Blog · API · FAQ · Solana · 2997 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 41ms · UTC 07:11 · PVG 15:11 · LAX 00:11 · JFK 03:11
♥ Do have faith in what you're doing.