论文地址: https://arxiv.org/abs/2603.03823 新闻总结版: https://baijiahao.baidu.com/s?id=1859905657933003430
和我个人的感觉差不多,还是只能当作提高效率的工具,对于大的项目来说还是无法做到完全交给 AI
1
NothingExist 10 小时 15 分钟前
AI 进化太快了
|
2
qiuxuqin 9 小时 52 分钟前 没有真正用过 AI 编写代码的人,才会迷信 AI 可以完全替代人类做软件项目的长期任务。在此点名我那个不会编程的领导
|
3
penisulaS 9 小时 51 分钟前 没有银弹
|
4
iorilu 9 小时 46 分钟前
这是废话
现在当然不能一句话构建 windows, 也不能构建微信 但是, 能处理得项目规模确实指数增长, 已经很强了 |
5
zmal 9 小时 45 分钟前 明年这个时候再来看看。
|
6
Hyschtaxjh 9 小时 45 分钟前 via iPhone
需要搭配物理人形 AI 接受現實世界的輸入
|
7
S1ahs3r 9 小时 42 分钟前
以前会觉得实验室可能专业。 现在 Token 用多了,一百亿可能就是单人两三个月的量而已。
|
8
Alias4ck 9 小时 41 分钟前
😄😄😅 想起之前的新闻 claude 写 linux kernel,再看这个我笑了, 噢还有 openai 的 andorid sora 也是用 AI 写的,无法承担长期任务怎么得出来的
|
9
coefu 9 小时 40 分钟前
在座的各位,都能鄙视学界了。笑屎。
|
11
coderzhangsan 9 小时 36 分钟前
因为 AI 根本不了解甲方,对于甲方那种天花乱坠的需求,人都无力,更何况 AI 乎。
|
12
cryptovae 9 小时 30 分钟前 |
13
billbur 9 小时 27 分钟前
有人抛出问题,有人解决问题,有人直接不承认有问题
|
14
fuxintong 9 小时 27 分钟前
标记一下,明年过来看看什么样了
|
15
QAZXCDSWE 9 小时 26 分钟前
不说说什么 AI 笑死
|
16
0x0x 9 小时 20 分钟前 via Android
这研究没什么意义,能够大幅提高效率已经足够了,现在裁员也不是都裁了,只留 ai 啊,还是要人的。
|
18
Pteromyini 9 小时 16 分钟前 从原理来看目前长期确实不可能,长期项目放到 LLM 的视角下就是长上下文,长上下文在现有的 Transformer 的实现方式假设算力有限的前提下必然会引起注意力分散的问题,而现在的缓解手段基本是从工程上做上下文压缩和利用稀疏注意力选择性的计算上下文 token ,放到当下的技术能力,这个结论是成立的,核心争议无非是“长期”项目指的范围是什么。至于未来能不能解决只能说拭目以待,毕竟现在谁也不知道下一个序列建模方法以什么样的方式发布,未来的算力会不会产生爆炸式增长
|
19
lyhiving 9 小时 12 分钟前
傻子!
两个都不是顶尖 SOTA ,居然就下了一个绝对的结论! |
20
workshop 9 小时 12 分钟前
@coderzhangsan AI 反而反应更快
|
21
nc 9 小时 11 分钟前
无论什么规模的项目都不该完全交给 AI ,人最终还是要 review 代码的,未来很长一段时间都会这样。如果模型进步到可以不用人 review 代码的地步,SWE 就完蛋了。现在的顶级模型已经很好了,即使模型进步停滞也无所谓,门槛太低反而不好。
|
22
lyhiving 9 小时 10 分钟前
而且 100 亿 token 才干多少事,普通人正常跑每天都花大几十亿 token 甚至更多。
两个机构花了 100 亿 token 就敢下结论? 不对,不对的。 |
23
jackOff 9 小时 9 分钟前
人类就是上下限最大的人工智能,AI 这玩意永远都是资料库属性,只不过更便捷用户友好,决策层永远是人
|
24
Inn0Vat10n 9 小时 6 分钟前
没有"人类"对比, 而且测试数据来自于 github 的优质项目,一般程序员我感觉是不如 claude opus4.6 的
|
25
loolac 8 小时 59 分钟前
项目发展以后肯定会选择定期重构来替代维护旧架构代码。反正都是 AI 去做,相对的效率还是有的,项目后期可以等比例扩展 AI + 技术人员的规模。
|
26
FH0 8 小时 58 分钟前
我提供一个角度,他们研究是否能够承担长期任务,意味着中短期任务已经没问题了
|
27
jko123 8 小时 50 分钟前
怎么合理操作 ai 和给怎么给员工合理分配工作差不多
|
28
jadeborner 8 小时 45 分钟前
这种新闻看都不要看
|
29
YanSeven 8 小时 45 分钟前
"Our extensive evaluation of 18 models from 8 different providers reveals a consistent pattern: within the same provider family, newer models always achieve higher scores, with models released after 2026 showing markedly larger gains than their predecessors. This suggests that the code capabilities of current LLMs are rapidly evolving beyond static bug-fixing toward sustained, long-term code maintenance. Among all evaluated models, the Claude Opus series demonstrates a commanding lead throughout the entire observation period, with GLM-5 also standing out as a strong performer.
我们对来自 8 家不同供应商的 18 个模型进行了广泛评估,发现一个稳定规律:在同一供应商系列中,新发布的模型始终获得更高评分,且 2026 年后发布的模型相较前代提升幅度尤为显著。这表明当前 LLMs 的代码能力正快速从静态缺陷修复向持续、长期的代码维护演进。在所有评估模型中,Claude Opus 系列在整个观察周期内保持显著领先优势,GLM-5 同样表现突出。 " 严重怀疑 GLM 提供了研究资金🐶 |
30
jixiafu 8 小时 34 分钟前
claude 果然是断崖式领先啊,这份论文恰恰证明 claude 完全可以承担长期任务,夯爆了
|
31
Rrrrrr 7 小时 38 分钟前
就算不能完全取代人类,也不耽误现在裁员潮
|
33
MuyuQ 6 小时 36 分钟前
@iorilu 虽然可能是广告,但也确实是实话。除了 CC ,其他全是开源模型,GLM5 和 KIMI 确实比其他的开源模型好一些。 这个榜单还有个问题,codex 没有测。
|
34
MuyuQ 6 小时 33 分钟前
@Alias4ck 什么时候微软用 claude 或者 ChatGPT 把屎山 Windows 重构了再说吧。linux 是开源的,早就被 claude 吃进去多少次了。
|
35
jsq2627 6 小时 18 分钟前
这个模型评分和个人体感确实比较接近
|
36
evan9527 6 小时 17 分钟前
今天不行那就明天,明天不行就下周/下个月,一切只是时间问题而已。
|
37
LiuJiang 6 小时 15 分钟前
。。。你要不看看 Anthropic CEO 搞了个测试,花了 2 周的时间,完全用 Claude 写了一个小型浏览器?
|
38
yoshiyuki 6 小时 1 分钟前
GPT 只用到了 5.2 ,而且从实验来看,claude Opus4.6 已经非常强的,实验里缺少的 5.3codex 和 5.4 更强
这个论文在我看来非常倾向于支持 AI 可以担任长期编程的任务,要明白一点,这些大模型在接下来的月份里只会越来越强,就 Opus4.6 的得分,推算 gpt5.3 和 gpt5.4 的得分来看,即使是现在也已经很接近目标,遑论半年乃至一年以后 |
39
v2hh 5 小时 47 分钟前
会不会是人无法下发给 ai 一个完整的长期任务
|
40
dudubaba 5 小时 35 分钟前
但是不得不承认对于 crud 项目完全绰绰有余了,残酷的是大家做的编程任务至少 80% 都是 crud 项目。
|
41
LoNeZ 4 小时 46 分钟前
哦 这图画得 不还是 Anthropic 遥遥领先吗
|
42
Simle100 4 小时 26 分钟前
不要低估了 AI 的进化速度啊。12 年的时候 AI 刚刚学会识图,16 年的时候在围棋上打败了人类,22 年 ChatGPT 掀起了 LLMs 的浪潮,再到如今的 Claude Code 基本可以让你的想法快速变成一个可用的产品。这 10 几年的进步速度是巨快的。如今 AI 的发展依然在按照 OpenAI 的路线图在走:聊天机器人、推理者、智能体、创新者和组织者。我想等 AI 的发展到创新者和组织者这步,一定会激起更大的社会结构变动。人类也许真的是硅基生物的 boot loader 。
|
43
aprilwei 1 小时 46 分钟前
国内的 deepseek 、qwen 、kimi 、glm 我都用过,glm-5 确实比较好,目前在开发智能体,toolCall & function Call 的形式
|
44
maolon 1 小时 35 分钟前
100 亿其实也不多啊,我光是一个 codex 都跑了 400 亿了...
另外凡是觉得长期任务不行的都可以看看 openai 说了啥: https://openai.com/zh-Hans-CN/index/harness-engineering 阿里说不行,openai 说行,你说有没有一种可能其中一个有点菜 |
45
LandCruiser 1 小时 28 分钟前
@maolon anthropic 的 CEO 还说自家 AI 有意识了,怎么评价,是 openAI 有点菜还是?
|
46
maolon 1 小时 18 分钟前
@LandCruiser 你看,人的原话是:“we don't know if the models are conscious”, 而不是 “models are conscious”,
“不要断章取义” “要断章取义” |