阿里巴巴与中山大学花了 100 亿 token 证明目前 ai 编程无法承担长期任务

jiirouwei · 2026-03-18T07:28:58Z

论文地址： https://arxiv.org/abs/2603.03823 新闻总结版： https://baijiahao.baidu.com/s?id=1859905657933003430 和我个人的感觉差不多，还是只能当作提高效率的工具，对于大的项目来说还是无法做到完全交给 AI

AI

编程

效率

60 replies • 2026-03-19 23:02:29 +08:00

1

NothingExist

Mar 18

AI 进化太快了

2

qiuxuqin

Mar 18

12

没有真正用过 AI 编写代码的人，才会迷信 AI 可以完全替代人类做软件项目的长期任务。在此点名我那个不会编程的领导

3

penisulaS

Mar 18

2

没有银弹

4

iorilu

Mar 18

1

这是废话

现在当然不能一句话构建 windows, 也不能构建微信

但是, 能处理得项目规模确实指数增长, 已经很强了

5

zmal

Mar 18

3

明年这个时候再来看看。

6

Hyschtaxjh

Mar 18 via iPhone

需要搭配物理人形 AI 接受現實世界的輸入

7

S1ahs3r

Mar 18

以前会觉得实验室可能专业。现在 Token 用多了，一百亿可能就是单人两三个月的量而已。

8

Alias4ck

Mar 18

1

😄😄😅 想起之前的新闻 claude 写 linux kernel,再看这个我笑了, 噢还有 openai 的 andorid sora 也是用 AI 写的,无法承担长期任务怎么得出来的

9

coefu

Mar 18

1

在座的各位，都能鄙视学界了。笑屎。

10

S1ahs3r

Mar 18

@coefu 我本来没那么大戾气的，我个人在企业内跟国内 TOP3 的大学实验室合作过调度算法项目。客观评价一下这个标题的事情怎么了

11

coderzhangsan

Mar 18

1

因为 AI 根本不了解甲方，对于甲方那种天花乱坠的需求，人都无力，更何况 AI 乎。

12

cryptovae

Mar 18

6

@Alias4ck
@iorilu

AI 写不了 windows ，可能是 windows 不是开源的
claude 能写 linux kernel ，可能 linux 是开源的

13

billbur

Mar 18

有人抛出问题，有人解决问题，有人直接不承认有问题

14

fuxintong

Mar 18

标记一下，明年过来看看什么样了

15

QAZXCDSWE

Mar 18

不说说什么 AI 笑死

16

0x0x

Mar 18 via Android

这研究没什么意义，能够大幅提高效率已经足够了，现在裁员也不是都裁了，只留 ai 啊，还是要人的。

17

maocat

Mar 18

@QAZXCDSWE
好喷，提个建议，下次先把论文或者链接点开看看

18

Pteromyini

Mar 18

5

从原理来看目前长期确实不可能，长期项目放到 LLM 的视角下就是长上下文，长上下文在现有的 Transformer 的实现方式假设算力有限的前提下必然会引起注意力分散的问题，而现在的缓解手段基本是从工程上做上下文压缩和利用稀疏注意力选择性的计算上下文 token ，放到当下的技术能力，这个结论是成立的，核心争议无非是“长期”项目指的范围是什么。至于未来能不能解决只能说拭目以待，毕竟现在谁也不知道下一个序列建模方法以什么样的方式发布，未来的算力会不会产生爆炸式增长

19

lyhiving

Mar 18

傻子！
两个都不是顶尖 SOTA ，居然就下了一个绝对的结论！

20

workshop

Mar 18

@coderzhangsan AI 反而反应更快

21

nc

Mar 18

无论什么规模的项目都不该完全交给 AI ，人最终还是要 review 代码的，未来很长一段时间都会这样。如果模型进步到可以不用人 review 代码的地步，SWE 就完蛋了。现在的顶级模型已经很好了，即使模型进步停滞也无所谓，门槛太低反而不好。

22

lyhiving

Mar 18

而且 100 亿 token 才干多少事，普通人正常跑每天都花大几十亿 token 甚至更多。
两个机构花了 100 亿 token 就敢下结论？
不对，不对的。

23

jackOff

Mar 18

1

人类就是上下限最大的人工智能，AI 这玩意永远都是资料库属性，只不过更便捷用户友好，决策层永远是人

24

Inn0Vat10n

Mar 18

没有"人类"对比, 而且测试数据来自于 github 的优质项目,一般程序员我感觉是不如 claude opus4.6 的

25

loolac

Mar 18

项目发展以后肯定会选择定期重构来替代维护旧架构代码。反正都是 AI 去做，相对的效率还是有的，项目后期可以等比例扩展 AI + 技术人员的规模。

26

FH0

Mar 18

我提供一个角度，他们研究是否能够承担长期任务，意味着中短期任务已经没问题了

27

jko123

Mar 18

怎么合理操作 ai 和给怎么给员工合理分配工作差不多

28

jadeborner

Mar 18

这种新闻看都不要看

29

YanSeven

Mar 18

"Our extensive evaluation of 18 models from 8 different providers reveals a consistent pattern: within the same provider family, newer models always achieve higher scores, with models released after 2026 showing markedly larger gains than their predecessors. This suggests that the code capabilities of current LLMs are rapidly evolving beyond static bug-fixing toward sustained, long-term code maintenance. Among all evaluated models, the Claude Opus series demonstrates a commanding lead throughout the entire observation period, with GLM-5 also standing out as a strong performer.
我们对来自 8 家不同供应商的 18 个模型进行了广泛评估，发现一个稳定规律：在同一供应商系列中，新发布的模型始终获得更高评分，且 2026 年后发布的模型相较前代提升幅度尤为显著。这表明当前 LLMs 的代码能力正快速从静态缺陷修复向持续、长期的代码维护演进。在所有评估模型中，Claude Opus 系列在整个观察周期内保持显著领先优势，GLM-5 同样表现突出。
"
严重怀疑 GLM 提供了研究资金🐶

30

jixiafu

Mar 18

claude 果然是断崖式领先啊，这份论文恰恰证明 claude 完全可以承担长期任务，夯爆了

31

Rrrrrr

Mar 18

1

就算不能完全取代人类，也不耽误现在裁员潮

32

iorilu

Mar 18

@YanSeven 很显然就是为了发这句话才搞得评测

33

MuyuQ

Mar 18

@iorilu 虽然可能是广告，但也确实是实话。除了 CC ，其他全是开源模型，GLM5 和 KIMI 确实比其他的开源模型好一些。这个榜单还有个问题，codex 没有测。

34

MuyuQ

Mar 18

@Alias4ck 什么时候微软用 claude 或者 ChatGPT 把屎山 Windows 重构了再说吧。linux 是开源的，早就被 claude 吃进去多少次了。

35

jsq2627

Mar 18

这个模型评分和个人体感确实比较接近

36

evan9527

Mar 18

今天不行那就明天，明天不行就下周/下个月，一切只是时间问题而已。

37

jchencode

Mar 18

。。。你要不看看 Anthropic CEO 搞了个测试，花了 2 周的时间，完全用 Claude 写了一个小型浏览器？

38

yoshiyuki

Mar 18

GPT 只用到了 5.2 ，而且从实验来看，claude Opus4.6 已经非常强的，实验里缺少的 5.3codex 和 5.4 更强
这个论文在我看来非常倾向于支持 AI 可以担任长期编程的任务，要明白一点，这些大模型在接下来的月份里只会越来越强，就 Opus4.6 的得分，推算 gpt5.3 和 gpt5.4 的得分来看，即使是现在也已经很接近目标，遑论半年乃至一年以后

39

v2hh

Mar 18

会不会是人无法下发给 ai 一个完整的长期任务

40

dudubaba

Mar 18

但是不得不承认对于 crud 项目完全绰绰有余了，残酷的是大家做的编程任务至少 80% 都是 crud 项目。

41

LoNeZ

Mar 18

哦这图画得不还是 Anthropic 遥遥领先吗

42

Simle100

Mar 18

不要低估了 AI 的进化速度啊。12 年的时候 AI 刚刚学会识图，16 年的时候在围棋上打败了人类，22 年 ChatGPT 掀起了 LLMs 的浪潮，再到如今的 Claude Code 基本可以让你的想法快速变成一个可用的产品。这 10 几年的进步速度是巨快的。如今 AI 的发展依然在按照 OpenAI 的路线图在走：聊天机器人、推理者、智能体、创新者和组织者。我想等 AI 的发展到创新者和组织者这步，一定会激起更大的社会结构变动。人类也许真的是硅基生物的 boot loader 。

43

aprilwei

Mar 18

国内的 deepseek 、qwen 、kimi 、glm 我都用过，glm-5 确实比较好，目前在开发智能体，toolCall & function Call 的形式

44

maolon

Mar 19

100 亿其实也不多啊，我光是一个 codex 都跑了 400 亿了...
另外凡是觉得长期任务不行的都可以看看 openai 说了啥： https://openai.com/zh-Hans-CN/index/harness-engineering
阿里说不行，openai 说行，你说有没有一种可能其中一个有点菜