Dewchame
V2EX  ›  问与答

为什么 gpt5.5 连高考英语都能错这么多呢

  •  1
     
  •   Dewchame · 16h 38m ago · 6316 views
    最近用 gpt 发现他做高考英语错误频出,我让他帮我批改卷子,好几个问题都出错了。然后我告诉他错了,让他再做一遍,他就说好的,确实是他错了,这次改出来错的就蛮少了。我又说你不能单纯顺从我说的,我俩是在讨论,然后输出的一版又是把一些错误的答案说成对的。按理说 gpt 不应该连高考英语都能错很多吧,用的是 gpt5.5 高级
    82 replies    2026-06-26 01:10:37 +08:00
    Dewchame
        1
    Dewchame  
    OP
       16h 37m ago
    yakun4566
        2
    yakun4566  
       16h 37m ago   ❤️ 11
    这还不能够说明,我们的应试教育有问题吗
    huanxianghao
        3
    huanxianghao  
       16h 34m ago
    目前 AI 最大的问题就是智商受算力影响,供应商算力不够的时候你的 AI 就降智,具体表现就是时而聪明时而蠢笨
    4seasons
        4
    4seasons  
       16h 26m ago   ❤️ 1
    应试教育下所谓的英语,让一个老外来做,都不可能拿满分
    nszm
        5
    nszm  
       16h 25m ago   ❤️ 25
    太快了 楼上都有人开始反思了
    nomansky
        6
    nomansky  
       16h 25m ago
    你这图打不开。错误的发出来贴出来看看
    ndxxx
        7
    ndxxx  
       16h 21m ago via Android   ❤️ 14
    哑巴英语的英语教育质量不反思教育体系,难道 pua 自己吗😁
    cnrting
        8
    cnrting  
       16h 20m ago via iPhone
    近期的 AI 都不太行,排行榜跟安卓跑分榜似的用起来跟个智障一样
    ntdll
        9
    ntdll  
       16h 18m ago
    我认为很正常,HSK 汉语水平考试,可以尝试到网上搜个历年的真题,作为土生土长的中国人,那个题,我也做不出来。
    keethebest
        10
    keethebest  
       16h 16m ago
    以前 xhs 上中美大对账的时候,一个美国人做 xhs 上网友发出来的英语题,也是错了很多。
    jheroy
        11
    jheroy  
       16h 16m ago via iPhone   ❤️ 5
    很简单,因为大语言模型是根据互联网语料训练的,不是根据英语试卷和标准答案训练的,而互联网语料本来就有很多语法上不对的。 这种特殊需求还不如基于一个开源中小模型用标准答案调优来的好。
    keethebest
        12
    keethebest  
       16h 15m ago
    最好还是自己建个题库,让 AI 参考
    Sundayz
        13
    Sundayz  
       16h 14m ago
    大家应该都是中国人吧,各位高考语文多少分,把高考语文卷子扔给 AI 能考多少分?
    Enter3211
        14
    Enter3211  
       16h 10m ago
    最近 5.5 降智很多,已经弃用了
    wat4me
        15
    wat4me  
       16h 10m ago
    应试教育每年四五月都能出来一堆天才少年,真搞素质教育不如直接举孝廉。
    kneep
        16
    kneep  
       16h 9m ago   ❤️ 2
    把争议题目贴出来吧,学校日常的英语试卷,经常遇到整篇材料都是中国人写的。但高考英语严肃程度很高,我认为不大可能。
    跟 AI 讨论英语题目的时候,可以要求它无论什么观点,必须给出三条主流英语媒体的语料链接来佐证它的观点,不要空对空谈。
    msaionyc
        17
    msaionyc  
       16h 7m ago
    其实从你这段正文里也能挑出来一大堆不规范用语的。
    billlee
        18
    billlee  
       15h 46m ago
    也不奇怪吧,之前的版本输出中文的时候就不讲人话
    clemente
        19
    clemente  
       15h 45m ago
    因为美国人日常说话 也不尊重语法语序的, 大模型语料就这样
    wweerrgtc
        20
    wweerrgtc  
       15h 34m ago via iPhone
    需要为英语考试单独优化模型
    niuniugood
        21
    niuniugood  
       15h 28m ago
    太典了,这才几层楼就好几个反思怪了
    单 V2 站内搜索“阀值”这个词就十几页结果,看什么时候大模型能吐出这个词来
    potatowish
        22
    potatowish  
       15h 26m ago via iPhone
    这是英语,和语文差不多,没有非常标准的答案,只有主观上的常不常用。 你要试试理科试卷
    Nasdaq
        23
    Nasdaq  
    PRO
       15h 25m ago
    一题一题的让 chatgpt 再试下昵?
    laikicka
        24
    laikicka  
       15h 24m ago via iPhone   ❤️ 6
    @niuniugood 清北学生吃十几年鸭腿当鹅腿,有人指出就把支出那人骂半年多还不说明应试教育出了问题?
    KaynWASD
        25
    KaynWASD  
       15h 23m ago
    最基本的 就是一题一题的做
    charlie21
        26
    charlie21  
       15h 22m ago
    这是优绩主义擅长的
    coderzhangsan
        27
    coderzhangsan  
       15h 11m ago
    我在想,op 本意是疑惑为什么会错这么多?你只需要回复其结果即可,为什么扯一些毫无关联的东西,比如楼上的反思哥。

    -------

    原因也很简单,AI 模型都是基于现有开源数据做训练的,如果没有提前给它训练相关领域数据,它的提供的结果会出现较大偏差,对于国内高考而言,GPT 不会专门花钱和精力去做,不然它会成为另一个培训机构,对于封闭行业,AI 提供的帮助微乎其微。
    marcong95
        28
    marcong95  
       15h 8m ago
    大品葱日常立场先行,高考应试教育哑巴英语这自然是不假,但是起码知识点语法类的还是正确的,语文阅读还能说那种揣摩出题人意图那种主观题,英语应该还是绝大多数还是客观题吧。

    各路 LLM 之前还出过 13.11 < 13.8 ,你们为啥不反思一下中国的数学教育呢?
    shadowyue
        29
    shadowyue  
       14h 59m ago
    因为现在的 AI 只是超级加强版的文字接龙
    只要接龙出来的内容看起来合理就行,它不能也没能力分辨是不是正确的
    lucifer9
        30
    lucifer9  
       14h 58m ago
    我觉得大语言模型不至于连英语语法书都没训练过啊
    potatowish
        31
    potatowish  
       14h 56m ago via iPhone
    这个和之前用大模型数数、计算错误是一类问题,只不过现在它可以调用工具完成。
    ZztGqk
        32
    ZztGqk  
       14h 53m ago via iPhone
    1 分钟就好了?换 pro ?
    potatowish
        33
    potatowish  
       14h 52m ago via iPhone
    @potatowish 之前的用户是这么评价的,“怎么这么垃圾,计算都能算错”,不接触底层原理的使用者就是这样的。目前看起来只有情绪发泄,不是洗地就是故意拉踩
    mscsky
        34
    mscsky  
       14h 42m ago
    你用的是深度思考还是快速?
    workingpad2
        35
    workingpad2  
       14h 37m ago
    这里咋这么多洗地反思的,还没说什么呢,大模型不行难道不是很普遍现象吗。
    jackerbauer
        36
    jackerbauer  
       14h 32m ago
    感觉 5.5 已经傻的不成样子了
    Rickkkkkkk
        37
    Rickkkkkkk  
       14h 28m ago
    你开更高的模式应该不会错,1 分钟做完整张卷子也太快了点。
    hubaq
        38
    hubaq  
       12h 35m ago
    反思党真多
    ShowYourPrompt
        39
    ShowYourPrompt  
       12h 28m ago
    这也可以反思吗?
    你这样理解:高考是筛选工具,不是培养工具
    筛选,那肯定是找个最公平的方式
    语言类的,难道要像面试那样面对面交流来打分吗?主观性、可暗箱操作性太强了。
    唯有做题
    admin948
        40
    admin948  
       12h 5m ago
    看到楼上说外国人来了也做不了中国英语试题的,正好前几天刷到个视频:

    [大学生 外国人 留子 挑战 25 年高考英语试卷!谁的分最高?-哔哩哔哩] https://b23.tv/GFLbGY3
    est
        41
    est  
       12h 2m ago
    LZ 要不把题目截图一道一道给 gpt 再试试?

    我觉得是你 prompt 的姿势有问题。
    LandCruiser
        42
    LandCruiser  
       11h 38m ago
    AI 根本不会思考啊,你觉得简单的东西,他不一定把数据训进去了,简单理解就是数据库里没有这个题,你怎么查也查不出来啊
    Dewchame
        43
    Dewchame  
    OP
       11h 38m ago
    @est 这个思路确实没想过,但是我的 prompt 很简单
    Dewchame
        44
    Dewchame  
    OP
       11h 37m ago
    @Rickkkkkkk 我开的是 5.5 高级
    bf109_
        45
    bf109_  
    PRO
       11h 36m ago
    用 5.4 试试
    Dewchame
        46
    Dewchame  
    OP
       11h 36m ago
    @mscsky 我用的是高级,对应的应该是深度思考吧
    Dewchame
        47
    Dewchame  
    OP
       11h 36m ago
    @ZztGqk 高级模式应该就是深度思考来的
    Dewchame
        48
    Dewchame  
    OP
       11h 35m ago
    @Nasdaq
    @KaynWASD 好的,感谢建议,我下一份题一个题发一次
    Dewchame
        49
    Dewchame  
    OP
       11h 34m ago
    @msaionyc 我的 prompt 具体有哪些不规范用语呢?可以具体指出来吗😁
    Dewchame
        50
    Dewchame  
    OP
       11h 33m ago
    @nomansky 可以点一下收起,然后全屏显示图像,右键复制图像,随便找一个窗口粘贴就好啦
    Dewchame
        51
    Dewchame  
    OP
       11h 31m ago
    @kneep 我在做下一份,再去试一下,然后就把争议的题目贴出来
    Dewchame
        52
    Dewchame  
    OP
       11h 28m ago
    @coderzhangsan 感谢大佬回复,我有个疑问是,国内的模型按理说会针对这些题目进行训练,比如豆包千问什么的,可是他们做出来的结果比 gpt 还离谱很多;此外,我看很多大佬说可以一道题一道题的问,这样效果会好点,这个是什么原因嘞
    ebushicao
        53
    ebushicao  
       11h 18m ago
    现在 gpt-5.5 降智的太严重了,我刚才让它修复一个进度条没有正常显示的问题,这么简单的问题,它给我改成固定返回 1%的进度。。。给我整蒙了,minimax 都不至于吧
    est
        54
    est  
       11h 11m ago
    @Dewchame 你 prompt 并不简单。
    Dewchame
        55
    Dewchame  
    OP
       10h 53m ago
    @est #54 是不是因为我把答案和要去做的事混在一起了,导致他出错比较多
    AmericanExpress
        56
    AmericanExpress  
       10h 37m ago via iPhone
    高考英语和英语是两种东西
    托福雅思虽然也跟英语不一样但跟高考英语比起来还是正常多了
    butanediol2d
        57
    butanediol2d  
       10h 33m ago
    我觉得你的这份 Prompt 不好。大模型并不是你说“别看”它就不看了,甚至我觉得有可能因为你把答案给他,并且让他别看答案,导致它故意做错。
    Censhuang
        58
    Censhuang  
       10h 30m ago
    如果你仔细阅读过高考标题,选择的是“最佳选项”,答案也叫“参考答案”。昨天方面还是国产 ai 好一些。
    Cruzz
        59
    Cruzz  
       10h 24m ago
    文科的玩意没法量化模型并不擅长,你让他做数学物理题他会很厉害,全是代码算出来的
    lovelyxiaod
        60
    lovelyxiaod  
       10h 19m ago
    高考英语你应该拿国产模型去做啊.你拿 GPT5.5 这种洋枪洋炮水土不服也是情理之中啊.
    kandaakihito
        61
    kandaakihito  
       10h 0m ago
    楼上的都在发什么电呢,怎么还莫名其妙反思上了???

    你可以说高考英语的题目死板、无用、都是没有人用了的犄角旮旯的古早语法点,但是要说有大量题目出错了,那还真不至于。这对于 AI 来说应该更简单才对吧?
    interim
        62
    interim  
       9h 36m ago
    @laikicka 只能说你把个人代表群体只能说不一般。
    Dewchame
        63
    Dewchame  
    OP
       9h 16m ago
    @kandaakihito 他是这种:80 分的题,说我错了 20 分,然后我仔细看了之后,其实我只错了 10 分。我就把我的观点告诉他,他说是的,上一次是做错了。然后我说你别敷衍我,然后他说那你错的还是 20 分。(大概是这个意思)
    Dewchame
        64
    Dewchame  
    OP
       9h 16m ago
    @lovelyxiaod
    @Censhuang
    @LandCruiser 我用了豆包和千问,他们的结果正确率不如 gpt 和 gemini
    Dewchame
        65
    Dewchame  
    OP
       9h 15m ago
    @butanediol2d 是的楼上几个老哥也指出来了,我不应该这样写提示词
    Zhuzhuchenyan
        66
    Zhuzhuchenyan  
       9h 12m ago   ❤️ 10
    2026 年下半年了,还是请拥抱更好的 AI 使用方式,特别是对于牵扯到长文本图像识别的任务
    使用 Codex ,以 2026 全国一卷为例子
    1. 把图片卷子重写成 Latex 格式并检查,得到结果 https://rr.yyhutil.com/dataset/questions.pdf
    2. 禁用联网工具完成卷子的客观题格式,输出同样是 Latex
    3. 把答案复制到 codex 目录(不在 1 ,2 两步骤复制到目录防止作弊),根据答案批改,最终得到结果: https://rr.yyhutil.com/dataset/answers.pdf

    最终答案


    现在这个时间点最前沿基准模型的能力应付这种考试还是没有丝毫难度的,如果遇到问题,请首先检查自己使用 AI 的能力
    woodfizky
        67
    woodfizky  
       9h 3m ago   ❤️ 1
    V 站是这样的,如果你的标题或者正文能有任何扯到中国不好的地方那流量可能就大大的。
    但是如果你的标题是:"为什么 gpt5.5 连 SAT 的 reading, writing and language test 都做不好"那评论区保证都会开始客观的跟你说为什么做不好,这是 LLM 的局限,或者吐槽你用的东西版本落后/调教不行。
    unusualcat
        68
    unusualcat  
       8h 53m ago
    你用国产的大模型嘛,豆包爱学,小猿 ai 啥的。
    LaTero
        69
    LaTero  
       8h 37m ago via Android
    @coderzhangsan 我自己看了看 op 发的图中的几道题,觉得 ai 说的确实是对的,哪有 last hot for 这种说法?我阅读量也不小了从没见过。虽然在 v 站说这种话政治不正确,但我还是倾向就是应试教育的答案有问题。
    kpprotector
        70
    kpprotector  
       8h 32m ago
    看了图片感觉你一道一道给他试试看更好。
    或者是你试题本身的问题。
    LaTero
        71
    LaTero  
       8h 30m ago via Android
    能发个完整的题吗?我看你的图只能从上下文猜,不知道 gpt 到底是在说你的答案错了还是参考答案错了。比如鸟让船转向的那题,我很难相信这么简单的题参考答案能错,看 gpt 的回答,他的意思似乎是你的理解有问题而不是参考答案有问题?
    k4x7UW92WE8
        72
    k4x7UW92WE8  
       8h 16m ago
    🥵🥵🥵 想请教一下老哥怎么上传的 pdf
    k4x7UW92WE8
        73
    k4x7UW92WE8  
       8h 16m ago
    @Zhuzhuchenyan 🥵🥵🥵 想请教一下老哥怎么上传的 pdf
    Zhuzhuchenyan
        74
    Zhuzhuchenyan  
       8h 14m ago
    @k4x7UW92WE8 你说那个 pdf 链接么,这个是我自己的源,公布出来更有信服力一点
    Censhuang
        75
    Censhuang  
       8h 11m ago
    @Dewchame #64 豆包就算了,千问正确率不如这俩?真的假的。我高数问千问都能对
    k4x7UW92WE8
        76
    k4x7UW92WE8  
       7h 40m ago
    @Zhuzhuchenyan 这三个任务是不是在 codex 执行层面看来 是不是都是彼此上下文独立的 可以使用 subagent 或者手动清空上下文
    jhdxr
        77
    jhdxr  
       7h 19m ago
    我很好奇上面觉得国内的英文教育没啥问题的,最高学历都啥水平。。。

    虽然 OP 这个肯定是 OP 自己的锅(直接这么发答案对 LLM 要求很高,再往前推半年它答案都未必对应上),但国内的英语考试的确和出去以后用的差距很大。。。
    NoKey
        78
    NoKey  
       6h 37m ago
    好多反思怪,嘿嘿。。。
    bigdogbigpig
        79
    bigdogbigpig  
    PRO
       5h 5m ago
    现在还是不能这么简单,需要上一点工程手段才行
    KaynWASD
        80
    KaynWASD  
       5h 2m ago
    @jhdxr 国内环境就是这样 任何批评都不准有了 从上到下 从 gov 到平民
    x 而不自知是主流了
    CRH
        81
    CRH  
       2h 21m ago
    这种事需要某种程度的 harness ,比如给每一道题都给加上合适的 prompt (“你是一位高中英语老师 blah blah”),每道题重新开一个对话问,他就会聪明很多
    整张卷子都扔进去,上下文太长就会降智

    你可以把之前 AI 做错的题这么试试看
    callmesmc
        82
    callmesmc  
       44 mins ago
    注意力和思考预算问题吧,一道题一道题发会好很多
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1141 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 209ms · UTC 17:55 · PVG 01:55 · LAX 10:55 · JFK 13:55
    ♥ Do have faith in what you're doing.