C-Eval， GPT4 节节败退，跌出前十。。。。 - V2EX

Home Sign Up Sign In

This topic created in 1019 days ago, the information mentioned may be changed or developed.

讲道理，虽然 C-Eval 是中文的评估套件，GPT4 跌出前十，前面的都是国产大模型，这些勉强都能理解接受。

可是排名这一块，居然还有排名第 0 位的，这是几个意思。。。

附个网页链接： https://cevalbenchmark.com/static/leaderboard_zh.html

34 replies • 2023-09-07 17:09:08 +08:00

1

x86

Sep 6, 2023

0 是 foreach 循环的时候从 0 开始了填的呗

2

luchenwei9266

OP

Sep 6, 2023

@x86 那大概率又是招的临时工没经验，前端显示排名的时候忘了+1

3

ktqFDx9m2Bvfq3y4

Sep 6, 2023 via iPhone

13

甭管他们怎么评，目前我只为 ChatGPT 付费。

4

leonhao

Sep 6, 2023

1

赢麻了

5

BingoXuan

Sep 6, 2023

看了一下测试内容，唯一想法是为何让大模型成为做题家呢？

6

jolanyu

Sep 6, 2023

8

（注：* 表示该模型结果由 C-Eval 团队测试得到，而其他结果是通过用户提交获得。）

7

zapper

Sep 6, 2023

考霸？要来干嘛

8

TimePPT

PRO

Sep 6, 2023

@jolanyu 哈哈哈正想吐槽来着

9

xlsepiphone

Sep 6, 2023

榜单里面的，我只可能为 ChatGPT 付费。

10

SomeBodsy

Sep 6, 2023

1

文心一言就是个人工智障，问啥都不知道，跟 chatGPT 最起码差 20 代

11

yigecaiji

Sep 6, 2023 via Android

乐

12

idealhs

Sep 6, 2023

我们中国真是太厉害辣

13

Eissen

Sep 6, 2023

4

遥遥领先

14

BwNVlwSq

Sep 6, 2023 via iPhone

1

太酷辣

15

bt7vip

Sep 6, 2023 via Android

我也好奇，GPT4 的模型放出来了？？他们可以调试？？

16

excitedXXX

Sep 6, 2023

遥遥领先！！！

17

Navee

Sep 6, 2023

单走一个 6

18

momo31

Sep 6, 2023

遥遥领先

19

chendl111

Sep 6, 2023

1

前面都是国内的，我严重怀疑测试的可靠性

20

yvescheung

Sep 6, 2023

14

在朝鲜最幸福国家的排名中，前五分别是中国，朝鲜，古巴，伊朗和委内瑞拉，邪恶的美帝国主义排 200 多

21

0m9ionbP8wuvs8S3

Sep 6, 2023

国产，自研，弯道超车，遥遥领先
🤣

22

akira

Sep 6, 2023

2

想吐槽点啥，但是槽点太多了，以至于不知道怎么说好

23

yiencho

Sep 6, 2023

遥遥领先，遥遥领先！~~~

24

234ygg

Sep 6, 2023

1

小镇做题家从人变模型了是吧😅
gpt4 是在规模部署的前提下实现当前性能的，不能以低于 20 刀/月的价格规模推广的就别来比了，田忌赛马也要让人见到马吧。
而且，最少也请做个网页版，并提供 API 。

25

weilongs

Sep 6, 2023

这有点不厚道吧？

26

casatAway

Sep 6, 2023

@bt7vip 不是有 api 吗。。。

27

cherryas

Sep 6, 2023

chatgpt 本来就对中国的人文历史社科胡编乱造，中国的测试打不过其他新模型很正常。

28

george2077

Sep 6, 2023

野榜不看也罢

29

geomancy

Sep 6, 2023

我自己训练的模型最牛 x ，它居然知道我的生活习惯，和别人的聊天记录什么的，其他商业大模型则不可以，甚至不知道我叫什么，我觉得我自己的模型理所当然的排名最前。

30

windyboy

Sep 6, 2023

又一个安兔兔吗？

31

cheese

Sep 6, 2023

这测试都是中文考证做题的,gpt4 玩不过很正常吧,gpt 的中文训练集相对英文本来就少,更别提这种专用形式的考试内容

32

XnEnokq9vkvVq4

Sep 6, 2023

要不是我真用过好多开源模型我就真信了，完全无视这些所谓 benchmark

33

timestamp24

Sep 7, 2023

姑且相信这个评分(上传成绩的人都很诚实&测试结果可靠)，这是在挑选中文做题家/背题家吗？全是选择题考察有一定的局限性。其实开放公测大家一用就知道各种模型几斤几两了。

34

chancat

Sep 7, 2023 via Android

一方面判定别人家的东西违法，有害。自己又干不出来不是抄袭套皮就是自封第一，真的。很难进步。

About · Help · Advertise · Blog · API · FAQ · Solana · 2492 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 105ms · UTC 05:35 · PVG 13:35 · LAX 22:35 · JFK 01:35
♥ Do have faith in what you're doing.