前OpenAI安全研究VP万字长文扒Scaling Laws:你用的模型可能喂错数据量!
【导语:前OpenAI安全研究VP翁荔停更13个月后发表万字新文《Scaling Laws, Carefully》,扒了支撑大模型行业数百亿美元投入的Scaling Laws,指出当下模型可能喂错数据量,背后是不同团队研究结论的差异及诸多技术细节问题。】
2020年,OpenAI研究员Jared Kaplan提出Scaling Laws框架,认为在log - log坐标上,训练损失随参数量N、数据量D、算力C的增加呈直线下降,且模型规模应比数据增长更快,如算力涨10倍,模型参数涨5.5倍,训练数据只涨1.8倍。GPT - 3就是按此训练,1750亿参数只喂了3000亿token,参数量近数据量6倍。
然而,2022年DeepMind的Jordan Hoffmann团队重做实验,规模更大、方法更细。对比Gopher(2800亿参数,3000亿token)和Chinchilla(700亿参数,1.4万亿token),Chinchilla参数仅Gopher四分之一,但训练数据是四倍多,且在所有评测上碾压Gopher。其结论是参数和token最佳比例约为1:20,即参数翻一倍,训练数据也应翻一倍。
翁荔分析Kaplan结论错误原因,一是实验规模问题。Kaplan实验最大模型仅15亿参数,却将结论外推到万亿参数,在log - log空间里,小规模区间的微小拟合差异外推几个数量级后,会变成系统性预测偏差。
二是参数口径问题。Kaplan不算embedding层参数,小模型上embedding占比大,去掉后显著改变了N和C的关系。2024年Pearce和Song证明,把embedding加回去,Kaplan的0.73次方自然收敛到Chinchilla的0.5,说明其结论只在局部区间成立。
2024年,Epoch AI团队逐行复现Chinchilla的拟合代码,发现两个bug。Bug 1是损失函数实现里取了均值而不是求和,L - BFGS - B优化器因loss值太小以为收敛而提前停止,未找到真正的全局最优解。
Bug 2是两个核心幂律指数α和β被四舍五入到小数点后两位,从两位数反推的其他参数误差被指数级放大,置信区间窄得离谱,看似“显著”实则是假象。Epoch AI修正后的真实值α ≈ 0.3478,β ≈ 0.3658,再次确认Chinchilla模型和数据等比增长的方向,但原论文具体数字需修正。
此前所有关于Scaling Laws的讨论都基于训练数据无限、不重复的前提,但人类生产的高质量文本数据预计2026到2028年就会耗尽,只能重复训练。而重复数据的价值指数衰减,Muennighoff等人引入“有效数据量”概念,同一批数据反复训练,边际价值遵循D_eff = U*(1 - e^(-R))规律,每多一轮收益递减。
Lovelace等人2026年的新工作显式建模了过拟合惩罚项,发现强weight decay可有效缓解重复训练的过拟合。
翁荔在博客里嵌了交互式模拟器,调整拟合精度、噪声水平、拟合区间等参数,会发现看似无关紧要的工程选择,如loss保留几位小数、噪声在0.001量级,都能导致外推预测差出十万八千里。这表明Scaling Laws不是物理定律,而是对工程细节高度敏感的观测性指南。
编辑观点:翁荔的文章深入剖析了Scaling Laws,揭示了行业研究中的问题和数据困境,为大模型训练提供了更严谨的思考方向,对行业发展有重要指导意义。
