当前位置：首页 > news >正文

前OpenAI安全研究VP万字长文扒Scaling Laws：你用的模型可能喂错数据量！

news 2026/6/26 22:31:50

【导语：前OpenAI安全研究VP翁荔停更13个月后发表万字新文《Scaling Laws, Carefully》，扒了支撑大模型行业数百亿美元投入的Scaling Laws，指出当下模型可能喂错数据量，背后是不同团队研究结论的差异及诸多技术细节问题。】

Scaling Laws框架结论分歧

2020年，OpenAI研究员Jared Kaplan提出Scaling Laws框架，认为在log - log坐标上，训练损失随参数量N、数据量D、算力C的增加呈直线下降，且模型规模应比数据增长更快，如算力涨10倍，模型参数涨5.5倍，训练数据只涨1.8倍。GPT - 3就是按此训练，1750亿参数只喂了3000亿token，参数量近数据量6倍。

然而，2022年DeepMind的Jordan Hoffmann团队重做实验，规模更大、方法更细。对比Gopher（2800亿参数，3000亿token）和Chinchilla（700亿参数，1.4万亿token），Chinchilla参数仅Gopher四分之一，但训练数据是四倍多，且在所有评测上碾压Gopher。其结论是参数和token最佳比例约为1:20，即参数翻一倍，训练数据也应翻一倍。

Kaplan结论的问题所在

翁荔分析Kaplan结论错误原因，一是实验规模问题。Kaplan实验最大模型仅15亿参数，却将结论外推到万亿参数，在log - log空间里，小规模区间的微小拟合差异外推几个数量级后，会变成系统性预测偏差。

二是参数口径问题。Kaplan不算embedding层参数，小模型上embedding占比大，去掉后显著改变了N和C的关系。2024年Pearce和Song证明，把embedding加回去，Kaplan的0.73次方自然收敛到Chinchilla的0.5，说明其结论只在局部区间成立。

Chinchilla代码的隐藏bug

2024年，Epoch AI团队逐行复现Chinchilla的拟合代码，发现两个bug。Bug 1是损失函数实现里取了均值而不是求和，L - BFGS - B优化器因loss值太小以为收敛而提前停止，未找到真正的全局最优解。

Bug 2是两个核心幂律指数α和β被四舍五入到小数点后两位，从两位数反推的其他参数误差被指数级放大，置信区间窄得离谱，看似“显著”实则是假象。Epoch AI修正后的真实值α ≈ 0.3478，β ≈ 0.3658，再次确认Chinchilla模型和数据等比增长的方向，但原论文具体数字需修正。

数据墙：训练数据的困境

此前所有关于Scaling Laws的讨论都基于训练数据无限、不重复的前提，但人类生产的高质量文本数据预计2026到2028年就会耗尽，只能重复训练。而重复数据的价值指数衰减，Muennighoff等人引入“有效数据量”概念，同一批数据反复训练，边际价值遵循D_eff = U*(1 - e^(-R))规律，每多一轮收益递减。

Lovelace等人2026年的新工作显式建模了过拟合惩罚项，发现强weight decay可有效缓解重复训练的过拟合。