V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jiirouwei
V2EX  ›  职场话题

阿里巴巴与中山大学花了 100 亿 token 证明目前 ai 编程无法承担长期任务

  •  1
     
  •   jiirouwei · 10 小时 16 分钟前 · 4445 次点击

    论文地址: https://arxiv.org/abs/2603.03823 新闻总结版: https://baijiahao.baidu.com/s?id=1859905657933003430

    和我个人的感觉差不多,还是只能当作提高效率的工具,对于大的项目来说还是无法做到完全交给 AI

    46 条回复    2026-03-19 00:26:02 +08:00
    NothingExist
        1
    NothingExist  
       10 小时 15 分钟前
    AI 进化太快了
    qiuxuqin
        2
    qiuxuqin  
       9 小时 52 分钟前   ❤️ 3
    没有真正用过 AI 编写代码的人,才会迷信 AI 可以完全替代人类做软件项目的长期任务。在此点名我那个不会编程的领导
    penisulaS
        3
    penisulaS  
       9 小时 51 分钟前   ❤️ 2
    没有银弹
    iorilu
        4
    iorilu  
       9 小时 46 分钟前
    这是废话

    现在当然不能一句话构建 windows, 也不能构建微信

    但是, 能处理得项目规模确实指数增长, 已经很强了
    zmal
        5
    zmal  
       9 小时 45 分钟前   ❤️ 2
    明年这个时候再来看看。
    Hyschtaxjh
        6
    Hyschtaxjh  
       9 小时 45 分钟前 via iPhone
    需要搭配物理人形 AI 接受現實世界的輸入
    S1ahs3r
        7
    S1ahs3r  
       9 小时 42 分钟前
    以前会觉得实验室可能专业。 现在 Token 用多了,一百亿可能就是单人两三个月的量而已。
    Alias4ck
        8
    Alias4ck  
       9 小时 41 分钟前
    😄😄😅 想起之前的新闻 claude 写 linux kernel,再看这个我笑了, 噢还有 openai 的 andorid sora 也是用 AI 写的,无法承担长期任务怎么得出来的
    coefu
        9
    coefu  
       9 小时 40 分钟前
    在座的各位,都能鄙视学界了。笑屎。
    S1ahs3r
        10
    S1ahs3r  
       9 小时 38 分钟前
    @coefu 我本来没那么大戾气的,我个人在企业内跟国内 TOP3 的大学实验室合作过调度算法项目。 客观评价一下这个标题的事情怎么了
    coderzhangsan
        11
    coderzhangsan  
       9 小时 36 分钟前
    因为 AI 根本不了解甲方,对于甲方那种天花乱坠的需求,人都无力,更何况 AI 乎。
    cryptovae
        12
    cryptovae  
       9 小时 30 分钟前   ❤️ 4
    @Alias4ck
    @iorilu

    AI 写不了 windows ,可能是 windows 不是开源的
    claude 能写 linux kernel ,可能 linux 是开源的
    billbur
        13
    billbur  
       9 小时 27 分钟前
    有人抛出问题,有人解决问题,有人直接不承认有问题
    fuxintong
        14
    fuxintong  
       9 小时 27 分钟前
    标记一下,明年过来看看什么样了
    QAZXCDSWE
        15
    QAZXCDSWE  
       9 小时 26 分钟前
    不说说什么 AI 笑死
    0x0x
        16
    0x0x  
       9 小时 20 分钟前 via Android
    这研究没什么意义,能够大幅提高效率已经足够了,现在裁员也不是都裁了,只留 ai 啊,还是要人的。
    maocat
        17
    maocat  
       9 小时 16 分钟前
    @QAZXCDSWE
    好喷,提个建议,下次先把论文或者链接点开看看
    Pteromyini
        18
    Pteromyini  
       9 小时 16 分钟前   ❤️ 3
    从原理来看目前长期确实不可能,长期项目放到 LLM 的视角下就是长上下文,长上下文在现有的 Transformer 的实现方式假设算力有限的前提下必然会引起注意力分散的问题,而现在的缓解手段基本是从工程上做上下文压缩和利用稀疏注意力选择性的计算上下文 token ,放到当下的技术能力,这个结论是成立的,核心争议无非是“长期”项目指的范围是什么。至于未来能不能解决只能说拭目以待,毕竟现在谁也不知道下一个序列建模方法以什么样的方式发布,未来的算力会不会产生爆炸式增长
    lyhiving
        19
    lyhiving  
       9 小时 12 分钟前
    傻子!
    两个都不是顶尖 SOTA ,居然就下了一个绝对的结论!
    workshop
        20
    workshop  
       9 小时 12 分钟前
    @coderzhangsan AI 反而反应更快
    nc
        21
    nc  
       9 小时 11 分钟前
    无论什么规模的项目都不该完全交给 AI ,人最终还是要 review 代码的,未来很长一段时间都会这样。如果模型进步到可以不用人 review 代码的地步,SWE 就完蛋了。现在的顶级模型已经很好了,即使模型进步停滞也无所谓,门槛太低反而不好。
    lyhiving
        22
    lyhiving  
       9 小时 10 分钟前
    而且 100 亿 token 才干多少事,普通人正常跑每天都花大几十亿 token 甚至更多。
    两个机构花了 100 亿 token 就敢下结论?
    不对,不对的。
    jackOff
        23
    jackOff  
       9 小时 9 分钟前
    人类就是上下限最大的人工智能,AI 这玩意永远都是资料库属性,只不过更便捷用户友好,决策层永远是人
    Inn0Vat10n
        24
    Inn0Vat10n  
       9 小时 6 分钟前
    没有"人类"对比, 而且测试数据来自于 github 的优质项目,一般程序员我感觉是不如 claude opus4.6 的
    loolac
        25
    loolac  
       8 小时 59 分钟前
    项目发展以后肯定会选择定期重构来替代维护旧架构代码。反正都是 AI 去做,相对的效率还是有的,项目后期可以等比例扩展 AI + 技术人员的规模。
    FH0
        26
    FH0  
       8 小时 58 分钟前
    我提供一个角度,他们研究是否能够承担长期任务,意味着中短期任务已经没问题了
    jko123
        27
    jko123  
       8 小时 50 分钟前
    怎么合理操作 ai 和给怎么给员工合理分配工作差不多
    jadeborner
        28
    jadeborner  
       8 小时 45 分钟前
    这种新闻看都不要看
    YanSeven
        29
    YanSeven  
       8 小时 45 分钟前
    "Our extensive evaluation of 18 models from 8 different providers reveals a consistent pattern: within the same provider family, newer models always achieve higher scores, with models released after 2026 showing markedly larger gains than their predecessors. This suggests that the code capabilities of current LLMs are rapidly evolving beyond static bug-fixing toward sustained, long-term code maintenance. Among all evaluated models, the Claude Opus series demonstrates a commanding lead throughout the entire observation period, with GLM-5 also standing out as a strong performer.
    我们对来自 8 家不同供应商的 18 个模型进行了广泛评估,发现一个稳定规律:在同一供应商系列中,新发布的模型始终获得更高评分,且 2026 年后发布的模型相较前代提升幅度尤为显著。这表明当前 LLMs 的代码能力正快速从静态缺陷修复向持续、长期的代码维护演进。在所有评估模型中,Claude Opus 系列在整个观察周期内保持显著领先优势,GLM-5 同样表现突出。
    "
    严重怀疑 GLM 提供了研究资金🐶
    jixiafu
        30
    jixiafu  
       8 小时 34 分钟前
    claude 果然是断崖式领先啊,这份论文恰恰证明 claude 完全可以承担长期任务,夯爆了
    Rrrrrr
        31
    Rrrrrr  
       7 小时 38 分钟前
    就算不能完全取代人类,也不耽误现在裁员潮
    iorilu
        32
    iorilu  
       6 小时 55 分钟前
    @YanSeven 很显然就是为了发这句话才搞得评测
    MuyuQ
        33
    MuyuQ  
       6 小时 36 分钟前
    @iorilu 虽然可能是广告,但也确实是实话。除了 CC ,其他全是开源模型,GLM5 和 KIMI 确实比其他的开源模型好一些。 这个榜单还有个问题,codex 没有测。
    MuyuQ
        34
    MuyuQ  
       6 小时 33 分钟前
    @Alias4ck 什么时候微软用 claude 或者 ChatGPT 把屎山 Windows 重构了再说吧。linux 是开源的,早就被 claude 吃进去多少次了。
    jsq2627
        35
    jsq2627  
       6 小时 18 分钟前
    这个模型评分和个人体感确实比较接近
    evan9527
        36
    evan9527  
       6 小时 17 分钟前
    今天不行那就明天,明天不行就下周/下个月,一切只是时间问题而已。
    LiuJiang
        37
    LiuJiang  
       6 小时 15 分钟前
    。。。你要不看看 Anthropic CEO 搞了个测试,花了 2 周的时间,完全用 Claude 写了一个小型浏览器?
    yoshiyuki
        38
    yoshiyuki  
       6 小时 1 分钟前
    GPT 只用到了 5.2 ,而且从实验来看,claude Opus4.6 已经非常强的,实验里缺少的 5.3codex 和 5.4 更强
    这个论文在我看来非常倾向于支持 AI 可以担任长期编程的任务,要明白一点,这些大模型在接下来的月份里只会越来越强,就 Opus4.6 的得分,推算 gpt5.3 和 gpt5.4 的得分来看,即使是现在也已经很接近目标,遑论半年乃至一年以后
    v2hh
        39
    v2hh  
       5 小时 47 分钟前
    会不会是人无法下发给 ai 一个完整的长期任务
    dudubaba
        40
    dudubaba  
       5 小时 35 分钟前
    但是不得不承认对于 crud 项目完全绰绰有余了,残酷的是大家做的编程任务至少 80% 都是 crud 项目。
    LoNeZ
        41
    LoNeZ  
       4 小时 46 分钟前
    哦 这图画得 不还是 Anthropic 遥遥领先吗
    Simle100
        42
    Simle100  
       4 小时 26 分钟前
    不要低估了 AI 的进化速度啊。12 年的时候 AI 刚刚学会识图,16 年的时候在围棋上打败了人类,22 年 ChatGPT 掀起了 LLMs 的浪潮,再到如今的 Claude Code 基本可以让你的想法快速变成一个可用的产品。这 10 几年的进步速度是巨快的。如今 AI 的发展依然在按照 OpenAI 的路线图在走:聊天机器人、推理者、智能体、创新者和组织者。我想等 AI 的发展到创新者和组织者这步,一定会激起更大的社会结构变动。人类也许真的是硅基生物的 boot loader 。
    aprilwei
        43
    aprilwei  
       1 小时 46 分钟前
    国内的 deepseek 、qwen 、kimi 、glm 我都用过,glm-5 确实比较好,目前在开发智能体,toolCall & function Call 的形式
    maolon
        44
    maolon  
       1 小时 35 分钟前
    100 亿其实也不多啊,我光是一个 codex 都跑了 400 亿了...
    另外凡是觉得长期任务不行的都可以看看 openai 说了啥: https://openai.com/zh-Hans-CN/index/harness-engineering
    阿里说不行,openai 说行,你说有没有一种可能其中一个有点菜
    LandCruiser
        45
    LandCruiser  
       1 小时 28 分钟前
    @maolon anthropic 的 CEO 还说自家 AI 有意识了,怎么评价,是 openAI 有点菜还是?
    maolon
        46
    maolon  
       1 小时 18 分钟前
    @LandCruiser 你看,人的原话是:“we don't know if the models are conscious”, 而不是 “models are conscious”,
    “不要断章取义” “要断章取义”
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1254 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 17:44 · PVG 01:44 · LAX 10:44 · JFK 13:44
    ♥ Do have faith in what you're doing.