为什么 gpt5.5 连高考英语都能错这么多呢

Dewchame · 2026-06-25T01:17:09Z

最近用 gpt 发现他做高考英语错误频出，我让他帮我批改卷子，好几个问题都出错了。然后我告诉他错了，让他再做一遍，他就说好的，确实是他错了，这次改出来错的就蛮少了。我又说你不能单纯顺从我说的，我俩是在讨论，然后输出的一版又是把一些错误的答案说成对的。按理说 gpt 不应该连高考英语都能错很多吧，用的是 gpt5.5 高级

GPT

错误

学习

90 replies • 2026-06-26 13:16:02 +08:00

1

Dewchame

OP

Jun 25

2

yakun4566

Jun 25

13

这还不能够说明，我们的应试教育有问题吗

3

huanxianghao

Jun 25

目前 AI 最大的问题就是智商受算力影响，供应商算力不够的时候你的 AI 就降智，具体表现就是时而聪明时而蠢笨

4

4seasons

Jun 25

1

应试教育下所谓的英语，让一个老外来做，都不可能拿满分

5

nszm

Jun 25

31

太快了楼上都有人开始反思了

6

nomansky

Jun 25

你这图打不开。错误的发出来贴出来看看

7

ndxxx

Jun 25 via Android

16

哑巴英语的英语教育质量不反思教育体系，难道 pua 自己吗😁

8

cnrting

Jun 25 via iPhone

近期的 AI 都不太行，排行榜跟安卓跑分榜似的用起来跟个智障一样

9

ntdll

Jun 25

我认为很正常，HSK 汉语水平考试，可以尝试到网上搜个历年的真题，作为土生土长的中国人，那个题，我也做不出来。

10

keethebest

Jun 25

以前 xhs 上中美大对账的时候，一个美国人做 xhs 上网友发出来的英语题，也是错了很多。

11

jheroy

Jun 25 via iPhone

7

很简单，因为大语言模型是根据互联网语料训练的，不是根据英语试卷和标准答案训练的，而互联网语料本来就有很多语法上不对的。这种特殊需求还不如基于一个开源中小模型用标准答案调优来的好。

12

keethebest

Jun 25

最好还是自己建个题库，让 AI 参考

13

Sundayz

Jun 25

大家应该都是中国人吧，各位高考语文多少分，把高考语文卷子扔给 AI 能考多少分？

14

Enter3211

Jun 25

最近 5.5 降智很多，已经弃用了

15

wat4me

Jun 25

应试教育每年四五月都能出来一堆天才少年，真搞素质教育不如直接举孝廉。

16

kneep

Jun 25

2

把争议题目贴出来吧，学校日常的英语试卷，经常遇到整篇材料都是中国人写的。但高考英语严肃程度很高，我认为不大可能。
跟 AI 讨论英语题目的时候，可以要求它无论什么观点，必须给出三条主流英语媒体的语料链接来佐证它的观点，不要空对空谈。

17

msaionyc

Jun 25

其实从你这段正文里也能挑出来一大堆不规范用语的。

18

billlee

Jun 25

也不奇怪吧，之前的版本输出中文的时候就不讲人话

19

clemente

Jun 25

因为美国人日常说话也不尊重语法语序的，大模型语料就这样

20

wweerrgtc

Jun 25 via iPhone

需要为英语考试单独优化模型

21

niuniugood

Jun 25

太典了，这才几层楼就好几个反思怪了
单 V2 站内搜索“阀值”这个词就十几页结果，看什么时候大模型能吐出这个词来

22

potatowish

Jun 25 via iPhone

这是英语，和语文差不多，没有非常标准的答案，只有主观上的常不常用。你要试试理科试卷

23

Nasdaq

PRO

Jun 25

一题一题的让 chatgpt 再试下昵？

24

laikicka

Jun 25 via iPhone

7

@niuniugood 清北学生吃十几年鸭腿当鹅腿，有人指出就把支出那人骂半年多还不说明应试教育出了问题？

25

KaynWASD

Jun 25

最基本的就是一题一题的做

26

charlie21

Jun 25

这是优绩主义擅长的

27

coderzhangsan

Jun 25

1

我在想，op 本意是疑惑为什么会错这么多？你只需要回复其结果即可，为什么扯一些毫无关联的东西，比如楼上的反思哥。

-------

原因也很简单，AI 模型都是基于现有开源数据做训练的，如果没有提前给它训练相关领域数据，它的提供的结果会出现较大偏差，对于国内高考而言，GPT 不会专门花钱和精力去做，不然它会成为另一个培训机构，对于封闭行业，AI 提供的帮助微乎其微。

28

marcong95

Jun 25

大品葱日常立场先行，高考应试教育哑巴英语这自然是不假，但是起码知识点语法类的还是正确的，语文阅读还能说那种揣摩出题人意图那种主观题，英语应该还是绝大多数还是客观题吧。

各路 LLM 之前还出过 13.11 < 13.8 ，你们为啥不反思一下中国的数学教育呢？

29

shadowyue

Jun 25

因为现在的 AI 只是超级加强版的文字接龙
只要接龙出来的内容看起来合理就行，它不能也没能力分辨是不是正确的

30

lucifer9

Jun 25

我觉得大语言模型不至于连英语语法书都没训练过啊

31

potatowish

Jun 25 via iPhone

这个和之前用大模型数数、计算错误是一类问题，只不过现在它可以调用工具完成。

32

ZztGqk

Jun 25 via iPhone

1 分钟就好了？换 pro ？

33

potatowish

Jun 25 via iPhone

@potatowish 之前的用户是这么评价的，“怎么这么垃圾，计算都能算错”，不接触底层原理的使用者就是这样的。目前看起来只有情绪发泄，不是洗地就是故意拉踩

34

mscsky

Jun 25

你用的是深度思考还是快速？

35

workingpad2

Jun 25

这里咋这么多洗地反思的，还没说什么呢，大模型不行难道不是很普遍现象吗。

36

jackerbauer

Jun 25

感觉 5.5 已经傻的不成样子了

37

Rickkkkkkk

Jun 25

你开更高的模式应该不会错，1 分钟做完整张卷子也太快了点。

38

hubaq

Jun 25

反思党真多

39

ShowYourPrompt

Jun 25

这也可以反思吗？
你这样理解：高考是筛选工具，不是培养工具
筛选，那肯定是找个最公平的方式
语言类的，难道要像面试那样面对面交流来打分吗？主观性、可暗箱操作性太强了。
唯有做题

40

admin948

Jun 25

看到楼上说外国人来了也做不了中国英语试题的，正好前几天刷到个视频：

[大学生外国人留子挑战 25 年高考英语试卷！谁的分最高？-哔哩哔哩] https://b23.tv/GFLbGY3

41

est

Jun 25

LZ 要不把题目截图一道一道给 gpt 再试试？

我觉得是你 prompt 的姿势有问题。

42

LandCruiser

Jun 25

AI 根本不会思考啊，你觉得简单的东西，他不一定把数据训进去了，简单理解就是数据库里没有这个题，你怎么查也查不出来啊

43

Dewchame

OP

Jun 25

@est 这个思路确实没想过，但是我的 prompt 很简单

44

Dewchame

OP

Jun 25

@Rickkkkkkk 我开的是 5.5 高级

45

bf109_

PRO

Jun 25

用 5.4 试试

46

Dewchame

OP

Jun 25

@mscsky 我用的是高级，对应的应该是深度思考吧

47

Dewchame

OP

Jun 25

@ZztGqk 高级模式应该就是深度思考来的

48

Dewchame

OP

Jun 25

@Nasdaq
@KaynWASD 好的，感谢建议，我下一份题一个题发一次

49

Dewchame

OP

Jun 25

@msaionyc 我的 prompt 具体有哪些不规范用语呢？可以具体指出来吗😁

50

Dewchame

OP

Jun 25

@nomansky 可以点一下收起，然后全屏显示图像，右键复制图像，随便找一个窗口粘贴就好啦

51

Dewchame

OP

Jun 25

@kneep 我在做下一份，再去试一下，然后就把争议的题目贴出来

52

Dewchame

OP

Jun 25

@coderzhangsan 感谢大佬回复，我有个疑问是，国内的模型按理说会针对这些题目进行训练，比如豆包千问什么的，可是他们做出来的结果比 gpt 还离谱很多；此外，我看很多大佬说可以一道题一道题的问，这样效果会好点，这个是什么原因嘞

53

ebushicao

Jun 25

现在 gpt-5.5 降智的太严重了，我刚才让它修复一个进度条没有正常显示的问题，这么简单的问题，它给我改成固定返回 1%的进度。。。给我整蒙了，minimax 都不至于吧

54

est

Jun 25

@Dewchame 你 prompt 并不简单。

55

Dewchame

OP

Jun 25

@est #54 是不是因为我把答案和要去做的事混在一起了，导致他出错比较多

56

AmericanExpress

Jun 25 via iPhone

高考英语和英语是两种东西
托福雅思虽然也跟英语不一样但跟高考英语比起来还是正常多了

57

butanediol2d

Jun 25

我觉得你的这份 Prompt 不好。大模型并不是你说“别看”它就不看了，甚至我觉得有可能因为你把答案给他，并且让他别看答案，导致它故意做错。

58

Censhuang

Jun 25

如果你仔细阅读过高考标题，选择的是“最佳选项”，答案也叫“参考答案”。昨天方面还是国产 ai 好一些。

59

Cruzz

Jun 25

文科的玩意没法量化模型并不擅长，你让他做数学物理题他会很厉害，全是代码算出来的

60

lovelyxiaod

Jun 25

高考英语你应该拿国产模型去做啊.你拿 GPT5.5 这种洋枪洋炮水土不服也是情理之中啊.

61

kandaakihito

Jun 25

楼上的都在发什么电呢，怎么还莫名其妙反思上了？？？

你可以说高考英语的题目死板、无用、都是没有人用了的犄角旮旯的古早语法点，但是要说有大量题目出错了，那还真不至于。这对于 AI 来说应该更简单才对吧？

62

interim

Jun 25

1

@laikicka 只能说你把个人代表群体只能说不一般。

63

Dewchame

OP

Jun 25

@kandaakihito 他是这种：80 分的题，说我错了 20 分，然后我仔细看了之后，其实我只错了 10 分。我就把我的观点告诉他，他说是的，上一次是做错了。然后我说你别敷衍我，然后他说那你错的还是 20 分。（大概是这个意思）

64

Dewchame

OP

Jun 25

@lovelyxiaod
@Censhuang
@LandCruiser 我用了豆包和千问，他们的结果正确率不如 gpt 和 gemini

65

Dewchame

OP

Jun 25

@butanediol2d 是的楼上几个老哥也指出来了，我不应该这样写提示词

66

Zhuzhuchenyan

Jun 25

15

2026 年下半年了，还是请拥抱更好的 AI 使用方式，特别是对于牵扯到长文本图像识别的任务
使用 Codex ，以 2026 全国一卷为例子
1. 把图片卷子重写成 Latex 格式并检查，得到结果 https://rr.yyhutil.com/dataset/questions.pdf
2. 禁用联网工具完成卷子的客观题格式，输出同样是 Latex
3. 把答案复制到 codex 目录（不在 1 ，2 两步骤复制到目录防止作弊），根据答案批改，最终得到结果： https://rr.yyhutil.com/dataset/answers.pdf

最终答案

现在这个时间点最前沿基准模型的能力应付这种考试还是没有丝毫难度的，如果遇到问题，请首先检查自己使用 AI 的能力

67

woodfizky

Jun 25

2

V 站是这样的，如果你的标题或者正文能有任何扯到中国不好的地方那流量可能就大大的。
但是如果你的标题是："为什么 gpt5.5 连 SAT 的 reading, writing and language test 都做不好"那评论区保证都会开始客观的跟你说为什么做不好，这是 LLM 的局限，或者吐槽你用的东西版本落后/调教不行。

68

unusualcat

Jun 25

你用国产的大模型嘛，豆包爱学，小猿 ai 啥的。

69

LaTero

Jun 25 via Android

@coderzhangsan 我自己看了看 op 发的图中的几道题，觉得 ai 说的确实是对的，哪有 last hot for 这种说法？我阅读量也不小了从没见过。虽然在 v 站说这种话政治不正确，但我还是倾向就是应试教育的答案有问题。

70

kpprotector

Jun 25

看了图片感觉你一道一道给他试试看更好。
或者是你试题本身的问题。

71

LaTero

Jun 25 via Android

能发个完整的题吗？我看你的图只能从上下文猜，不知道 gpt 到底是在说你的答案错了还是参考答案错了。比如鸟让船转向的那题，我很难相信这么简单的题参考答案能错，看 gpt 的回答，他的意思似乎是你的理解有问题而不是参考答案有问题？

72

k4x7UW92WE8

Jun 25

🥵🥵🥵 想请教一下老哥怎么上传的 pdf

73

k4x7UW92WE8

Jun 25

@Zhuzhuchenyan 🥵🥵🥵 想请教一下老哥怎么上传的 pdf

74

Zhuzhuchenyan

Jun 25

@k4x7UW92WE8 你说那个 pdf 链接么，这个是我自己的源，公布出来更有信服力一点

75

Censhuang

Jun 25

@Dewchame #64 豆包就算了，千问正确率不如这俩？真的假的。我高数问千问都能对

76

k4x7UW92WE8

Jun 25

@Zhuzhuchenyan 这三个任务是不是在 codex 执行层面看来是不是都是彼此上下文独立的可以使用 subagent 或者手动清空上下文

77

jhdxr

Jun 25

1

我很好奇上面觉得国内的英文教育没啥问题的，最高学历都啥水平。。。

虽然 OP 这个肯定是 OP 自己的锅（直接这么发答案对 LLM 要求很高，再往前推半年它答案都未必对应上），但国内的英语考试的确和出去以后用的差距很大。。。

78

NoKey

Jun 25

好多反思怪，嘿嘿。。。

79

bigdogbigpig

PRO

Jun 25

现在还是不能这么简单，需要上一点工程手段才行

80

KaynWASD

Jun 25

@jhdxr 国内环境就是这样任何批评都不准有了从上到下从 gov 到平民
x 而不自知是主流了

81

CRH

Jun 25

这种事需要某种程度的 harness ，比如给每一道题都给加上合适的 prompt （“你是一位高中英语老师 blah blah”），每道题重新开一个对话问，他就会聪明很多
整张卷子都扔进去，上下文太长就会降智

你可以把之前 AI 做错的题这么试试看

82

Bapper

Jun 26

注意力和思考预算问题吧，一道题一道题发会好很多

83

kkwa56188

Jun 26

笑死, 好多盘盘故意把 OP 这句没看到 "我用了豆包和千问，他们的结果正确率不如 gpt 和 gemini".

如果一份考卷, 的确让大部分的 LLM 都做得不够好, 那....

84

sevenday

Jun 26 via iPhone

看来怎么用对 AI 给出的结果影响也挺大的

85

hlwjia

Jun 26

看来卖 AI 课还是有前途

86

mscsky

Jun 26

有 instant 和增强智能，差别巨大

87

Dewchame

OP

Jun 26

@kneep
@LaTero #69 https://docs.qq.com/pdf/DZkJtQU5ZZXdMaUxp 这是题目，last...for 这个是我不知道有这个搭配，所以去问他的

88

Dewchame

OP

Jun 26

@unusualcat 用了的，效果没有 gpt 和 gemini 好

89

Dewchame

OP

Jun 26

@CRH 感谢建议，我去试试

90

Dewchame

OP

Jun 26

@k4x7UW92WE8 #72 就是直接把 pdf 上传给他呀，或者你从桌面直接拖