当前位置: 首页 > news >正文

Chinchilla Scaling Law 奇努拉缩放定律

本文结合gemini-3.1-pro-preview&豆包生成。


用一句话概括 Chinchilla 定律就是:在给定的算力预算下,要想训练出表现最好的模型,模型的“参数量(N)”和“训练数据量(D)”应该保持同等比例的增长。(通常的经验法则是:Token数大约是参数量的 20 倍)。

一、 故事背景:OpenAI 曾经带偏了节奏

在 Chinchilla 出现(2022年3月)之前,业界奉行的是 OpenAI 在 2020 年提出的第一代 Scaling Law(通常被称为 Kaplan Scaling Law)。

当时 OpenAI 的结论是:增加模型参数量带来的收益,远大于增加训练数据的收益。 如果算力增加 10 倍,OpenAI认为你应该把大部分算力用来把模型参数放大,而数据量只需稍微增加一点就行了(具体来说,算力每增加 10倍,参数量应增加约 5 倍,数据量只需增加约 2 倍)。

在这个定律的指导下,整个行业都在疯狂堆参数,造出了一批“大头娃娃”。比如:

  • GPT-3:1750 亿参数,却只用了 3000 亿 Token 训练(比例不到 1:2)。
  • DeepMind Gopher:2800 亿参数,只用了 3000 亿 Token 训练(比例差不多 1:1)。

这些模型脑袋极大(参数多,记忆容量大),但读过的书极少(Token 喂得少),导致它们其实并没有被充分训练(Under-trained)。

二、 DeepMind 的拨乱反正:Chinchilla 定律的诞生

2022 年,DeepMind 的研究员觉得不对劲。他们做了一组极其严谨的控制变量实验,训练了 400 多个不同大小的模型,重新推导了 Scaling Law。结果发现前人(OpenAI)的实验有瑕疵(比如在训练小模型时没有调整好学习率等超参数)。

DeepMind 得出了一个全新结论,也就是 Chinchilla Scaling Law:

算力(Compute,后面会有详细解释)、参数量(N)和数据量(D)之间存在最优配置关系。当算力增加时,参数量和数据量应该按 1:1 的比例同步增加。

他们顺手训了一个叫 Chinchilla 的模型来证明自己:

  • Gopher(旧定律产物):2800 亿参数,3000 亿 Token 数据。
  • Chinchilla(新定律产物):700 亿参数,1.4 万亿 Token 数据。

两者消耗了一模一样的总算力,但 70B 的 Chinchilla 在各项评测上把 280B 的 Gopher 按在地上摩擦。

这就是著名的“1:20 黄金法则”的由来: 为了达到算力性价比的最优解,模型的一个参数,大约需要搭配 20 个 Token 的数据来训练。 (比如 70B的模型,最优数据量是 1.4 Trillion tokens)。

三、 数学逻辑(为什么是这样?)

如果你喜欢看一点公式,这里有一个非常优雅的近似:

大模型的训练计算量(FLOPs,记为 C)可以简单近似为: \(C \approx 6 \times N \times D\) (N 是参数量,D 是 Token数,每次前向+反向传播每个参数大概需要 6 次浮点运算)

  • OpenAI 旧定律认为:\(N \propto C^{0.73}, D \propto C^{0.27}\)
  • Chinchilla 新定律证明:\(N \propto C^{0.50}, D \propto C^{0.50}\)

所以,当你老板说明年给你 100倍 的算力预算时:

  • 按照旧定律,你应该造一个比现在大 30倍 的模型,喂它 3倍 的数据。(大概)
  • 按照 Chinchilla 定律,你应该造一个比现在大 10倍 的模型,喂它 10倍 的数据。

另外,定律通过拟合海量实验数据,给出了模型最终测试损失与参数量、训练数据量的量化关系:

\[L(N, D) = E + \frac{A}{N^\alpha} + \frac{B}{D^\beta} \]

其中:

  • \(L\):模型在测试集上的每token负对数似然损失(核心性能指标,数值越低性能越好)
  • \(N\):模型参数量,\(D\):训练数据的token总数
  • \(E\):目标数据分布的不可约损失下限(理论最优性能)
  • \(A、B\)为拟合常数,经验拟合得到\(\alpha≈0.34\)\(\beta≈0.28\)(后续验证中\(\alpha、\beta\)均接近0.38),二者数值接近,证明参数量和数据量对模型性能提升的贡献度几乎对等

四、 为什么 Chinchilla 定律极其重要?

Chinchilla 定律直接劈开了开源大模型繁荣的时代。它的影响是决定性的:

  1. 终结了盲目卷参数的时代
    大家突然意识到,之前动辄上千亿参数的模型纯粹是浪费算力。只要把数据量拉上去,几十亿、几百亿参数的小模型依然能非常聪明。这直接催生了Meta 的 LLaMA 系列。

  2. 极大地降低了推理(Inference)成本 ,你要知道,总算力 = 训练算力 + 推理算力。

  • Gopher 280B 和 Chinchilla 70B 训练总成本是一样的。
  • 但是,把模型部署给全世界千万用户使用时(推理),70B 模型的显存占用和计算成本只有 280B 模型的 1/4! Chinchilla定律告诉业界:只要你多喂数据,就能用同样的总训练成本,换来一个体量更小、推理更便宜的模型。

五、 尾声:现在的模型超越 Chinchilla 了吗?

如果关注最近的模型,会发现一个奇怪的现象:

  • Llama 3 (8B) 竟然用了惊人的 15T (15万亿) Tokens 来训练! 按照 Chinchilla 定律的 1:20 法则,8B模型只需要大约 160B (0.16T) Tokens 就足够“Compute-Optimal(训练算力最优)”了。15T 数据是标准的将近 100 倍。

难道 Chinchilla 定律失效了吗?

并没有失效,而是厂商的目标变了。 Chinchilla 定律寻找的是如何用最少的训练算力达到最佳效果,按照这个定律,Llama 3训练数据达到160B后增大模型参数量会获得更大的收益,增大数据量也会有收益,就是没有增大参数量收益大罢了。 而如今 Llama 3 追求的是在固定的参数量(如 8B,为了能塞进消费级显卡)下,把模型榨干到极致。这被称为Inference-Optimal(推理最优)。

虽然让 8B 模型看 15 万亿数据,在训练算力上是极其低效的(收益递减极其严重),但这能打造出一个尺寸超小、性能巨强、用户推理成本极低的模型。这种过度训练(Over-training)是目前业界的绝对主流。

上面说的大语言模型自回归训练的总计算量C,是把模型训练到什么程度的训练量?

核心结论:Chinchilla定律中的总计算量 \(C \approx 6 \times N \times D\),指的是把模型训练到「计算最优帕累托点」的总计算量

  • 它不是"训练1个epoch"的计算量
  • 它不是"训练到损失完全不再下降"的计算量

什么是"计算最优帕累托点"

大模型的训练损失曲线是一个典型的幂律衰减曲线

  • 训练初期:损失下降极快,每多训练1B tokens,性能都有显著提升
  • 训练中期:损失下降速度逐渐变慢
  • 训练后期:损失下降极其缓慢,几乎进入平台期

计算最优帕累托点,就是这条曲线上的一个精确拐点

  • 在这个点之前:继续训练同一个模型,每增加1单位算力带来的性能提升,大于把这1单位算力用来训练一个更大的模型
  • 在这个点之后:继续训练同一个模型,每增加1单位算力带来的性能提升,小于把这1单位算力用来训练一个更大的模型

换句话说:

当你训练到计算最优点时,再往下训练就"不划算"了。同样的算力,你不如从头训练一个更大的模型,最终得到的性能会更好。


举一个具体的数字例子

假设我们有 \(C = 5.88 \times 10^{21}\) FLOPs 的算力预算:

  1. 计算最优方案:训练一个7B参数的模型,用140B tokens
    • 总计算量:\(6 \times 7B \times 140B = 5.88 \times 10^{21}\) FLOPs
    • 最终损失:假设为2.5
  2. 欠训练方案:训练一个14B参数的模型,用70B tokens
    • 总计算量:\(6 \times 14B \times 70B = 5.88 \times 10^{21}\) FLOPs
    • 最终损失:约2.7(比最优方案差)
  3. 过训练方案:训练一个7B参数的模型,用280B tokens
    • 总计算量:\(6 \times 7B \times 280B = 1.176 \times 10^{22}\) FLOPs(算力翻倍)
    • 最终损失:约2.4(仅比最优方案好一点点)

你会发现:

  • 同样的算力,最优方案的性能最好
  • 过训练方案虽然性能略有提升,但需要翻倍的算力,性价比极低

几个常见误区

误区1:"计算最优的模型就是性能最好的模型"

完全错误
计算最优的模型是单位算力性能最高的模型,不是绝对性能最高的模型。

  • 如果你有无限算力,那么把一个7B模型训练到100T tokens,性能肯定会比计算最优的7B模型好
  • 但同样的100T tokens算力,你训练一个500B参数的模型用10T tokens,性能会好得多

误区2:"实际训练中都应该遵循20 tokens/参数的配比"

几乎没有实际模型严格遵循
因为大模型的成本分为一次性训练成本长期推理成本

  • 对于闭源API模型(如GPT-4):推理成本是主要成本,所以他们会选择稍微过训练的模型(比如30-40 tokens/参数),用略高的训练成本换更低的推理成本
  • 对于开源模型(如LLaMA 2):用户自己承担推理成本,所以开发者会选择严重过训练的模型(LLaMA 2 7B用了2T tokens,约280 tokens/参数),让用户能用更小的模型获得更好的性能

这方面的理论后面有更新吗?

大模型的底层理论在 Chinchilla 之后并没有停滞。

现在的 Scaling Law(缩放定律)不仅关注预训练阶段,而是把后训练(Post-training)和推理(Inference)全部纳入了数学公式中。

以下是 Chinchilla 之后,这方面理论最核心的四次重大更新:

1. 从“训练最优”到“推理最优”(Inference-Optimal Scaling Law)

正如我们前面提到的 Llama 3 现象,业界意识到 Chinchilla 定律有一个盲点:它假设训练完了就不管了。但在现实商业中,一个模型训练一次,却要被千万用户推理几百亿次。

因此,学者们提出了 “Train-to-Test Scaling Laws”(或叫 Beyond Chinchilla 定律)。

  • 新定律结论: 如果一个模型的“生命周期推理量”极其巨大,那么大幅度过度训练(Overtraining)才是真正的算力最优解。
  • 白话解释: 宁可当初花 5 倍、10 倍的闲置算力,把一个小脑瓜(比如 8B 参数)往死里塞数据(比如 15T
    Tokens),哪怕后面的数据收益已经极低,但这能换来模型在部署后,每次回答用户问题时都能省下几倍的电费和显卡成本。

2. 划时代的突破:测试时计算缩放定律(Test-Time Compute Scaling Law)

这是自 2024 年底(以 OpenAI o1 模型发布为标志)以来,业界最大的理论突破。

以前的 Scaling Law 都是关于如何在训练前让脑子变大(Pre-training Compute)。但加州大学伯克利分校等机构的研究(如 Scaling LLM Test-Time Compute Optimally)提出了一种全新的曲线:

  • 新定律结论: 模型的聪明程度,不仅取决于训练时吃了多少算力,还取决于答题时(推理阶段)给它多少算力(让它思考多久)。
  • 白话解释: 以前大模型回答问题是“脱口而出”(System 1思考)。新理论证明,如果你给一个小模型充裕的时间,让它打草稿、自我验证、多路线搜索(生成多个答案选最好的),小模型花费额外推理算力得出的答案,可以直接秒杀比它大14倍的巨型模型。
  • 影响: 现在的算力战争不再只拼谁能买更多显卡来训练,而是拼谁能更好地让模型在回答复杂问题(如数学、编程)前,进行几分钟甚至几个小时的内在思考。

3. 数据墙与合成数据定律(The "Data Wall" & Synthetic Data Scaling)

Chinchilla 定律要求数据和参数 1:1 增长。但现实是残酷的:地球上高质量的人类文字数据(大约 15 万亿到 20 万亿
Tokens)已经被基本吃干榨净了。

当“没书可读”时,Scaling Law 怎么走?

  • 多 Epoch 缩放定律: 研究表明,同样的数据重复喂给模型 4 遍以内,依然符合 Scaling Law 带来线性收益;但超过 4
    遍,收益就会呈现断崖式下跌,甚至导致模型“过拟合”(变成只会背书的书呆子)。
  • 合成数据(Synthetic Data)定律: 既然人类不写了,那就让 AI 自己写给自己看。学术界重新推导了用“大模型生成的强化学习数据 /逻辑推演数据”来训练下一代模型的规律。结论是:仅靠普通的合成数据会产生模型崩溃(ModelCollapse),但如果是经过验证的、高质量的逻辑思考过程(如编程代码、数学推导),则依然完美符合Scaling Law。

4. 稀疏架构定律(MoE Scaling Law,如 DeepSeek/Mixtral 的理论基础)

Chinchilla 研究的是稠密模型(Dense Model),即每次计算时,所有的神经元都得启动。但这太费电了。

于是业界转向了 MoE(Mixture of Experts,混合专家架构),比如著名的 DeepSeek-V2/V3 或各种开源模型。

  • 新定律结论: 在 MoE 架构中,模型的总参数量可以非常大(比如几百亿),但每次只激活一小部分活跃参数。MoE 版本的 Scaling Law表明:它能用等同于小模型的活跃计算量,换取接近于大模型总体参数带来的性能红利。

总结:现在的大模型法则是什么?

如果你在 2022 年问 AI 科学家:“怎么让模型变强?” 他会用 Chinchilla 定律回答你:“买算力,按 1:20 的比例同时增加模型参数和数据。”

如果你在今天问同样的问题,他会拿出一个更复杂的多维公式回答你:

  1. 打底子(预训练):不用一味做大参数。造一个小巧但结实的“底座”,疯狂喂远超 Chinchilla 比例的数据,把它榨干(Inference-Optimal)。
  2. 长脑子(MoE/后训练):把模型做成 MoE 架构省钱,然后喂高质量的 AI 合成逻辑数据。
  3. 憋大招(测试时计算):遇到简单问题秒回;遇到复杂问题,通过 Test-Time Compute 强行提升智商,让它在后台思考十分钟再出结果。

所以,Scaling Law(缩放定律)并没有失效,它只是从一条简单“一维直线,升级成了涵盖训练、推理、数据质量的三维立体模型。

http://www.jsqmd.com/news/853031/

相关文章:

  • Hermes Agent 接入 Gemini 3.5 Flash:从本地模型到云端推理的完整迁移指南
  • 2026 深圳中高端全屋定制实测排行,本土工厂实力赶超连锁品牌 - 兔兔不是荼荼
  • IDEA专业版下maven构建和普通构建 JavaWeb 项目全教程(2025年) 附pom.xml配置文件
  • Ubuntu22.04系统安装英伟达显卡驱动
  • Windows 应用自动上架 Microsoft Store 的自动化实践
  • 外贸自建站多少钱 2026年外贸独立站建设费用全解析 - 麦麦唛
  • 医疗器械厂家可以定制中频治疗仪款式吗 - 舒雯文化
  • 使用 MobaXterm 打开第多个窗口(SSH渠道)
  • 三星固件下载终极指南:Bifrost跨平台工具免费获取官方系统
  • 2026年视频号视频怎么下载到手机相册?苹果安卓快速保存方法全盘点 - 科技热点发布
  • 哪个牌子的 pos 刷卡机靠谱?个人刷卡机正规机构大额刷卡,无年费对比测评 - 资讯速览
  • 2026开窗包装盒厂家推荐:大健康定制领域标杆企业测评 - 资讯速览
  • 2026年在线一键去水印工具推荐|好用的去水印工具评测对比 - 科技热点发布
  • 2026 年SATA连接器十大品牌排名及解析 - 十大品牌榜
  • 2026年国内做阴极保护腐蚀检测的厂家哪个好?从六大应用场景看武汉科思特仪器的全场景覆盖能力 - 品牌评测官
  • CubeCL 核心架构揭秘:基于立方体拓扑的跨平台计算模型
  • KFR数学函数深度解析:超越标准库的高性能实现
  • 协作焊接机器人研发 登兰普筑牢焊接自动化技术根基 - 深度智识库
  • 2026年去水印工具推荐:6大免费去水印工具详测,这款处理速度快到离谱 - 科技热点发布
  • 破解企业办公成本困局:打印机出租领域LITE轻办公方法论如何实现降本增效? - 资讯速览
  • 我的思维模型 - 7. 系统学篇
  • 深入理解DocQuery架构:LayoutLM模型与零样本学习原理
  • 通过Taotoken的API Key管理与审计日志功能加强企业内部安全管控
  • 去丽江吃云南菜别只看网红榜,选对店才不踩雷 - 资讯速览
  • 在K8S环境里部署大模型
  • 别再只用基本触发!Vivado ILA高级触发器模式实战:用状态机精准捕获复杂时序Bug
  • 2026 年音频连接器十大品牌排名及解析 - 十大品牌榜
  • 数据中心液冷厂家哪家好? 川润股份:国内稀缺的“算力液冷+绿色能源”全链条闭环服务商 - 资讯速览
  • LaTeX新手避坑指南:为什么你的PDF没有书签?hyperref宏包配置详解
  • FPGA DDR3实战:用MIG核把256MB内存变成高速数据缓存(附Verilog状态机代码)