当前位置：首页 > news >正文

Chinchilla Scaling Law 奇努拉缩放定律

news 2026/7/18 15:57:15

本文结合gemini-3.1-pro-preview&豆包生成。

用一句话概括 Chinchilla 定律就是：在给定的算力预算下，要想训练出表现最好的模型，模型的“参数量（N）”和“训练数据量（D）”应该保持同等比例的增长。（通常的经验法则是：Token数大约是参数量的 20 倍）。

一、故事背景：OpenAI 曾经带偏了节奏

在 Chinchilla 出现（2022年3月）之前，业界奉行的是 OpenAI 在 2020 年提出的第一代 Scaling Law（通常被称为 Kaplan Scaling Law）。

当时 OpenAI 的结论是：增加模型参数量带来的收益，远大于增加训练数据的收益。如果算力增加 10 倍，OpenAI认为你应该把大部分算力用来把模型参数放大，而数据量只需稍微增加一点就行了（具体来说，算力每增加 10倍，参数量应增加约 5 倍，数据量只需增加约 2 倍）。

在这个定律的指导下，整个行业都在疯狂堆参数，造出了一批“大头娃娃”。比如：

GPT-3：1750 亿参数，却只用了 3000 亿 Token 训练（比例不到 1:2）。
DeepMind Gopher：2800 亿参数，只用了 3000 亿 Token 训练（比例差不多 1:1）。

这些模型脑袋极大（参数多，记忆容量大），但读过的书极少（Token 喂得少），导致它们其实并没有被充分训练（Under-trained）。

二、 DeepMind 的拨乱反正：Chinchilla 定律的诞生

2022 年，DeepMind 的研究员觉得不对劲。他们做了一组极其严谨的控制变量实验，训练了 400 多个不同大小的模型，重新推导了 Scaling Law。结果发现前人（OpenAI）的实验有瑕疵（比如在训练小模型时没有调整好学习率等超参数）。

DeepMind 得出了一个全新结论，也就是 Chinchilla Scaling Law：

算力（Compute，后面会有详细解释）、参数量（N）和数据量（D）之间存在最优配置关系。当算力增加时，参数量和数据量应该按 1:1 的比例同步增加。

他们顺手训了一个叫 Chinchilla 的模型来证明自己：

Gopher（旧定律产物）：2800 亿参数，3000 亿 Token 数据。
Chinchilla（新定律产物）：700 亿参数，1.4 万亿 Token 数据。

两者消耗了一模一样的总算力，但 70B 的 Chinchilla 在各项评测上把 280B 的 Gopher 按在地上摩擦。

这就是著名的“1:20 黄金法则”的由来：为了达到算力性价比的最优解，模型的一个参数，大约需要搭配 20 个 Token 的数据来训练。（比如 70B的模型，最优数据量是 1.4 Trillion tokens）。

三、数学逻辑（为什么是这样？）

如果你喜欢看一点公式，这里有一个非常优雅的近似：

大模型的训练计算量（FLOPs，记为 C）可以简单近似为： \(C \approx 6 \times N \times D\) (N 是参数量，D 是 Token数，每次前向+反向传播每个参数大概需要 6 次浮点运算)

OpenAI 旧定律认为：\(N \propto C^{0.73}, D \propto C^{0.27}\)
Chinchilla 新定律证明：\(N \propto C^{0.50}, D \propto C^{0.50}\)

所以，当你老板说明年给你 100倍的算力预算时：

按照旧定律，你应该造一个比现在大 30倍的模型，喂它 3倍的数据。（大概）
按照 Chinchilla 定律，你应该造一个比现在大 10倍的模型，喂它 10倍的数据。

另外，定律通过拟合海量实验数据，给出了模型最终测试损失与参数量、训练数据量的量化关系：

\[L(N, D) = E + \frac{A}{N^\alpha} + \frac{B}{D^\beta} \]

其中：

\(L\)：模型在测试集上的每token负对数似然损失（核心性能指标，数值越低性能越好）
\(N\)：模型参数量，\(D\)：训练数据的token总数
\(E\)：目标数据分布的不可约损失下限（理论最优性能）
\(A、B\)为拟合常数，经验拟合得到\(\alpha≈0.34\)，\(\beta≈0.28\)（后续验证中\(\alpha、\beta\)均接近0.38），二者数值接近，证明参数量和数据量对模型性能提升的贡献度几乎对等。

四、为什么 Chinchilla 定律极其重要？

Chinchilla 定律直接劈开了开源大模型繁荣的时代。它的影响是决定性的：

终结了盲目卷参数的时代
大家突然意识到，之前动辄上千亿参数的模型纯粹是浪费算力。只要把数据量拉上去，几十亿、几百亿参数的小模型依然能非常聪明。这直接催生了Meta 的 LLaMA 系列。
极大地降低了推理（Inference）成本，你要知道，总算力 = 训练算力 + 推理算力。

Gopher 280B 和 Chinchilla 70B 训练总成本是一样的。
但是，把模型部署给全世界千万用户使用时（推理），70B 模型的显存占用和计算成本只有 280B 模型的 1/4！ Chinchilla定律告诉业界：只要你多喂数据，就能用同样的总训练成本，换来一个体量更小、推理更便宜的模型。

五、尾声：现在的模型超越 Chinchilla 了吗？

如果关注最近的模型，会发现一个奇怪的现象：

Llama 3 (8B) 竟然用了惊人的 15T (15万亿) Tokens 来训练！按照 Chinchilla 定律的 1:20 法则，8B模型只需要大约 160B (0.16T) Tokens 就足够“Compute-Optimal（训练算力最优）”了。15T 数据是标准的将近 100 倍。

难道 Chinchilla 定律失效了吗？

并没有失效，而是厂商的目标变了。 Chinchilla 定律寻找的是如何用最少的训练算力达到最佳效果，按照这个定律，Llama 3训练数据达到160B后增大模型参数量会获得更大的收益，增大数据量也会有收益，就是没有增大参数量收益大罢了。而如今 Llama 3 追求的是在固定的参数量（如 8B，为了能塞进消费级显卡）下，把模型榨干到极致。这被称为Inference-Optimal（推理最优）。

虽然让 8B 模型看 15 万亿数据，在训练算力上是极其低效的（收益递减极其严重），但这能打造出一个尺寸超小、性能巨强、用户推理成本极低的模型。这种过度训练（Over-training）是目前业界的绝对主流。

上面说的大语言模型自回归训练的总计算量C，是把模型训练到什么程度的训练量？

核心结论：Chinchilla定律中的总计算量 \(C \approx 6 \times N \times D\)，指的是把模型训练到「计算最优帕累托点」的总计算量。

它不是"训练1个epoch"的计算量
它不是"训练到损失完全不再下降"的计算量

什么是"计算最优帕累托点"

大模型的训练损失曲线是一个典型的幂律衰减曲线：

训练初期：损失下降极快，每多训练1B tokens，性能都有显著提升
训练中期：损失下降速度逐渐变慢
训练后期：损失下降极其缓慢，几乎进入平台期

计算最优帕累托点，就是这条曲线上的一个精确拐点：

在这个点之前：继续训练同一个模型，每增加1单位算力带来的性能提升，大于把这1单位算力用来训练一个更大的模型
在这个点之后：继续训练同一个模型，每增加1单位算力带来的性能提升，小于把这1单位算力用来训练一个更大的模型

换句话说：

当你训练到计算最优点时，再往下训练就"不划算"了。同样的算力，你不如从头训练一个更大的模型，最终得到的性能会更好。

举一个具体的数字例子

假设我们有 \(C = 5.88 \times 10^{21}\) FLOPs 的算力预算：

计算最优方案：训练一个7B参数的模型，用140B tokens
- 总计算量：\(6 \times 7B \times 140B = 5.88 \times 10^{21}\) FLOPs
- 最终损失：假设为2.5
欠训练方案：训练一个14B参数的模型，用70B tokens
- 总计算量：\(6 \times 14B \times 70B = 5.88 \times 10^{21}\) FLOPs
- 最终损失：约2.7（比最优方案差）
过训练方案：训练一个7B参数的模型，用280B tokens
- 总计算量：\(6 \times 7B \times 280B = 1.176 \times 10^{22}\) FLOPs（算力翻倍）
- 最终损失：约2.4（仅比最优方案好一点点）

你会发现：

同样的算力，最优方案的性能最好
过训练方案虽然性能略有提升，但需要翻倍的算力，性价比极低

几个常见误区

误区1："计算最优的模型就是性能最好的模型"

完全错误。
计算最优的模型是单位算力性能最高的模型，不是绝对性能最高的模型。

如果你有无限算力，那么把一个7B模型训练到100T tokens，性能肯定会比计算最优的7B模型好
但同样的100T tokens算力，你训练一个500B参数的模型用10T tokens，性能会好得多

误区2："实际训练中都应该遵循20 tokens/参数的配比"

几乎没有实际模型严格遵循。
因为大模型的成本分为一次性训练成本和长期推理成本：

对于闭源API模型（如GPT-4）：推理成本是主要成本，所以他们会选择稍微过训练的模型（比如30-40 tokens/参数），用略高的训练成本换更低的推理成本
对于开源模型（如LLaMA 2）：用户自己承担推理成本，所以开发者会选择严重过训练的模型（LLaMA 2 7B用了2T tokens，约280 tokens/参数），让用户能用更小的模型获得更好的性能

这方面的理论后面有更新吗?

大模型的底层理论在 Chinchilla 之后并没有停滞。

现在的 Scaling Law（缩放定律）不仅关注预训练阶段，而是把后训练（Post-training）和推理（Inference）全部纳入了数学公式中。

以下是 Chinchilla 之后，这方面理论最核心的四次重大更新：

1. 从“训练最优”到“推理最优”（Inference-Optimal Scaling Law）

正如我们前面提到的 Llama 3 现象，业界意识到 Chinchilla 定律有一个盲点：它假设训练完了就不管了。但在现实商业中，一个模型训练一次，却要被千万用户推理几百亿次。

因此，学者们提出了 “Train-to-Test Scaling Laws”（或叫 Beyond Chinchilla 定律）。

新定律结论：如果一个模型的“生命周期推理量”极其巨大，那么大幅度过度训练（Overtraining）才是真正的算力最优解。
白话解释：宁可当初花 5 倍、10 倍的闲置算力，把一个小脑瓜（比如 8B 参数）往死里塞数据（比如 15T
Tokens），哪怕后面的数据收益已经极低，但这能换来模型在部署后，每次回答用户问题时都能省下几倍的电费和显卡成本。

2. 划时代的突破：测试时计算缩放定律（Test-Time Compute Scaling Law）

这是自 2024 年底（以 OpenAI o1 模型发布为标志）以来，业界最大的理论突破。

以前的 Scaling Law 都是关于如何在训练前让脑子变大（Pre-training Compute）。但加州大学伯克利分校等机构的研究（如 Scaling LLM Test-Time Compute Optimally）提出了一种全新的曲线：

新定律结论：模型的聪明程度，不仅取决于训练时吃了多少算力，还取决于答题时（推理阶段）给它多少算力（让它思考多久）。
白话解释：以前大模型回答问题是“脱口而出”（System 1思考）。新理论证明，如果你给一个小模型充裕的时间，让它打草稿、自我验证、多路线搜索（生成多个答案选最好的），小模型花费额外推理算力得出的答案，可以直接秒杀比它大14倍的巨型模型。
影响：现在的算力战争不再只拼谁能买更多显卡来训练，而是拼谁能更好地让模型在回答复杂问题（如数学、编程）前，进行几分钟甚至几个小时的内在思考。

3. 数据墙与合成数据定律（The "Data Wall" & Synthetic Data Scaling）

Chinchilla 定律要求数据和参数 1:1 增长。但现实是残酷的：地球上高质量的人类文字数据（大约 15 万亿到 20 万亿
Tokens）已经被基本吃干榨净了。

当“没书可读”时，Scaling Law 怎么走？

多 Epoch 缩放定律：研究表明，同样的数据重复喂给模型 4 遍以内，依然符合 Scaling Law 带来线性收益；但超过 4
遍，收益就会呈现断崖式下跌，甚至导致模型“过拟合”（变成只会背书的书呆子）。
合成数据（Synthetic Data）定律：既然人类不写了，那就让 AI 自己写给自己看。学术界重新推导了用“大模型生成的强化学习数据 /逻辑推演数据”来训练下一代模型的规律。结论是：仅靠普通的合成数据会产生模型崩溃（ModelCollapse），但如果是经过验证的、高质量的逻辑思考过程（如编程代码、数学推导），则依然完美符合Scaling Law。

4. 稀疏架构定律（MoE Scaling Law，如 DeepSeek/Mixtral 的理论基础）

Chinchilla 研究的是稠密模型（Dense Model），即每次计算时，所有的神经元都得启动。但这太费电了。

于是业界转向了 MoE（Mixture of Experts，混合专家架构），比如著名的 DeepSeek-V2/V3 或各种开源模型。