V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sillydaddy
5.49D
4.39D
V2EX  ›  分享发现

Scaling Law 真的很有意思!它停止了吗?

  •  
  •   sillydaddy · 1 天前 · 687 次点击
    Scaling Law 的神奇在于,不只是预训练,甚至包括 RL 训练、推理时计算,都非常好的遵循 Scaling Law 。一个高中生就能根据它,准确预测未来模型的性能,只需要告诉他投入了多少算力!


    这让我好奇,在当前,它到底有没有放缓,会不会放缓呢?因为这点决定了很多事情。

    但即使对于这样简单的一个问题,也存在着矛盾的 2 面:一方面,大模型厂商的数据都是保密的,自 OpenAI 变成 CloseAI 后,似乎少有数据从它们内部发表出来;与之矛盾的另一方面,是这些大模型厂商又都在同一时段,取得了非常接近的成果!这是否说明,有某些信息其实是半公开的,有共识的,只不过没人主动揭开那层面纱?就比如现实世界的缩放定律能维持到什么时候这样一个基础的问题?

    然后我开始了搜索,先是找到了 36kr 的这篇文章:( GPT-5 被吐槽没进步? Epoch 年终报告打脸:AI 在飞速狂飙,ASI 更近了)
    https://eu.36kr.com/zh/p/3609407158404102

    里面发现了这句关键,「 OpenAI 、Anthropic 在 2025 年初就曾表示,它们当前的 RL 扩展速度最多只能维持 1–2 年」!——吐槽下,这句话也恰好印证了大模型厂商的保密,连做 AI 的同行也不知道 RL 扩展时效这些基本的东西。

    我每天都在关注 AI ,奇怪的是我听到的都是「没有墙」、「 Scaling Law 没有放缓,只是换了形式」,这个 1-2 年的说法从哪儿来的呢?

    于是顺藤摸瓜,找到了这篇很有意思的文章: ( RL 缩放的效果如何?)
    https://www.lesswrong.com/posts/xpj6KhDM9bJybdnEe/how-well-does-rl-scale

    这个作者 Toby_Ord 真的很厉害,他用我们每天都能看到的模型 benchmark 图,就推算出了 RL 的效率相比预训练的效率的数量关系(这也是 Scaling law 的魅力所在)。然后他根据算力投入,得出了 RL 缩放在算力上不可持续的结论。真的是非常典型的人类「少样本学习」。

    根据作者的分析,可以描绘出一个很简洁的关于大语言模型在缩放定律下发展的故事图景:2025 年是 RL 缩放辉煌的一年,而在这之前的 2024 年末,o1 模型,引爆了 RL 缩放,那时候,基于预训练的缩放,由于数据耗尽无法大规模扩张,陷入了困境,而 RL 缩放来得恰逢其时,每次将 10x 算力用于 RL 训练,都能获得稳步的性能提升,这与预训练的缩放情形何其类似!虽然 10x 算力用在 RL 训练上带来的提升,效率低些,不如用在预训练上的提升,但关键是起点不同,当时的预训练已经处在一个非常高的位置(比如每次训练花费动辄数十亿美元),再持续放大 10 倍是不可想象的,而 RL 训练还处在非常早期,意味着 10x 算力可能只相当于 100 万美元级别的投入,再 10x 也不过才 1000 万美元。Anthropic 的 CEO 阿莫代伊在 2025 年初说过,我们还处于 RL 缩放曲线非常早期的位置。这也是 2025 年大模型蓬勃发展的原因,每隔 3~4 个月,就有一个新版本的模型诞生。不过,一旦 RL 训练所需的算力追平预训练所需的算力,RL 缩放将无法再持续,它的效率甚至比预训练还低,根据 Toby_Ord 的计算,提升相同性能所需的算力倍数是预训练的平方。这也因应了「 RL 只能持续 1-2 年」的说法。

    2026 年,似乎是缩放定律的一个关键时间节点。下面这张模型发布时间图,在 2026 年,会怎样变化呢?



    上图中,最有意思的是 Claude 模型的命名:3.0, 3.5, 3.7, 4.0, 4.1, 4.5, 4.6 ,这些数字代表什么,是不是根据缩放定律取得的进步程度呢,间隔越大性能提升越高?它最近的模型发布时间间隔与命名编号,是不是证实了 RL 缩放在放缓呢?
    7 条回复    2026-03-04 16:19:59 +08:00
    JoeJoeJoe
        1
    JoeJoeJoe  
    PRO
       1 天前
    感谢分享干货!

    我突然发现一个很严重的问题, 因为用 AI 分析成为习惯了, 现在看到这些复杂数据对比或者文字密集的时候, 我会下意识的规避或者逃避, 想让 AI 来帮我总结一下.

    幸亏看 op 这个帖子突然醒悟, 再次感谢 op!
    sillydaddy
        2
    sillydaddy  
    OP
       1 天前
    @JoeJoeJoe 搜集资料时,我也问了 AI ,😂
    thinszx
        3
    thinszx  
       1 天前
    看这张图,25 年模型侧真的发生太多事了
    iloveoovx
        4
    iloveoovx  
       23 小时 57 分钟前
    宏观来看一定会找到新方法,本来这么高的投入,对于木桶短板会更敏感;就像为啥上来猛搞数据因为那时数据肯定更容易搞,数据提量提质效果收益明显;数据搞差不多了就只好在没那么直接的训练上想办法。之后到一定程度了又会回数据的,就像练武的会去找葵花宝典。当然训练的花活还有很多空间,没必要盯死觉得 rl 决定一切
    sillydaddy
        5
    sillydaddy  
    OP
       23 小时 45 分钟前
    @iloveoovx 一旦 RL 缩放放缓,虽然还有其他优化空间,但是会直接影响 scaling 的速度。

    另外,我发这个,也是说明我对这些 AI 公司很不信任:连这些基本的信息,他们都不会放出来,比如我们的 RL 缩放还能支持多长时间之类的话。从我发的主题里面的评论可以知道,大家基本都靠猜。

    如果这么基本的无害的信息,他们都要闭嘴不提,我根本不能相信这些 AI 公司能有什么透明度和操守。话倒是都说得很漂亮。
    iloveoovx
        6
    iloveoovx  
       23 小时 31 分钟前
    你这话说得,entitlement 大了点吧。什么叫无害?因为很多人误会然后大嚷大叫说 AI 进步到头了损伤股价叫不叫无害?何况是这种置信度很低的单维度指标 - 他们最多根据现在的情况估计下 rl 能带来多久值当的 loss 下降收益,但和最终用户的满意程度之间的关系,随着各种策略切入只会越来越低,在学术界层出不穷的思路优化中,他们自己也不可能知道是否会有调整以及如何调整,怎么给你一个让你满意的答案呢?这可是在造上帝;你把这单一维度看得比天高,并认为那些 AI 公司已经知道一切,说明你把概念抓得太紧,被逻辑理性概念洗脑有点深,不开玩笑建议去学点灵性神学对冲下
    sillydaddy
        7
    sillydaddy  
    OP
       22 小时 22 分钟前
    @iloveoovx
    你这逻辑跳跃的,确实该补点逻辑,而不是脑补什么「一听到 RL 缩放还能持续 1 年,就发生误会,损伤了股价」,你后面不也说了学术界有层出不穷的优化思路吗?

    另外,现实不就是 RL 缩放主导了缩放定律吗,主题里也提到了,缩放的方式改变了。怎么在你这里就成了置信度很低的单维度指标。

    关于 AI 公司的责任,考虑到我没有给你足够的上下文,我来补充一下,以免你产生幻觉。

    首先这个责任这不是我强加给它们的,所有 AI 公司都在说公共责任,特别是 Anthropic 。你可以看看他们出席多少公共论坛、接受多少公共采访,畅谈他们对 AI 的发展判断,去看看阿莫代伊的博客,里面「仁慈的机器」都出来了。

    然后你知道什么是 AI 发展中最重要的吗,不是别的,恰恰是 Scaling Law ,没有之一。谈 AI 发展的前提,就是谈缩放定律,而我说的 RL 缩放的时效,恰恰包含在里面,它还是一个核心。

    考虑到上面的 2 点上下文,你再去分析一下他们公开的发言,通篇都是多少年实现 AGI ,对未来的影响,但这些务实的缩放定律时效,他们丝毫不涉及!这个时效,是一个客观的东西,不是你说的用户满意度,它受限于客观的算力。你觉得,他们在面对投资人的时候,也会像面向公众的时候,大谈 AGI 大谈它们的进步,却对这些时效问题闭口不谈吗?这种态度的区别,说明了什么呢?你的道德标准可能比较低,认为这没有什么问题。我的标准跟你不一样。

    另外我上面的回复也没有针对你啊,你这刻薄的毛病从哪儿来的。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5677 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 06:42 · PVG 14:42 · LAX 22:42 · JFK 01:42
    ♥ Do have faith in what you're doing.