当前位置: 首页 > news >正文

前OpenAI安全研究VP万字长文扒Scaling Laws:你用的模型可能喂错数据量!

【导语:前OpenAI安全研究VP翁荔停更13个月后发表万字新文《Scaling Laws, Carefully》,扒了支撑大模型行业数百亿美元投入的Scaling Laws,指出当下模型可能喂错数据量,背后是不同团队研究结论的差异及诸多技术细节问题。】


Scaling Laws框架结论分歧

2020年,OpenAI研究员Jared Kaplan提出Scaling Laws框架,认为在log - log坐标上,训练损失随参数量N、数据量D、算力C的增加呈直线下降,且模型规模应比数据增长更快,如算力涨10倍,模型参数涨5.5倍,训练数据只涨1.8倍。GPT - 3就是按此训练,1750亿参数只喂了3000亿token,参数量近数据量6倍。

然而,2022年DeepMind的Jordan Hoffmann团队重做实验,规模更大、方法更细。对比Gopher(2800亿参数,3000亿token)和Chinchilla(700亿参数,1.4万亿token),Chinchilla参数仅Gopher四分之一,但训练数据是四倍多,且在所有评测上碾压Gopher。其结论是参数和token最佳比例约为1:20,即参数翻一倍,训练数据也应翻一倍。

Kaplan结论的问题所在

翁荔分析Kaplan结论错误原因,一是实验规模问题。Kaplan实验最大模型仅15亿参数,却将结论外推到万亿参数,在log - log空间里,小规模区间的微小拟合差异外推几个数量级后,会变成系统性预测偏差。

二是参数口径问题。Kaplan不算embedding层参数,小模型上embedding占比大,去掉后显著改变了N和C的关系。2024年Pearce和Song证明,把embedding加回去,Kaplan的0.73次方自然收敛到Chinchilla的0.5,说明其结论只在局部区间成立。

Chinchilla代码的隐藏bug

2024年,Epoch AI团队逐行复现Chinchilla的拟合代码,发现两个bug。Bug 1是损失函数实现里取了均值而不是求和,L - BFGS - B优化器因loss值太小以为收敛而提前停止,未找到真正的全局最优解。

Bug 2是两个核心幂律指数α和β被四舍五入到小数点后两位,从两位数反推的其他参数误差被指数级放大,置信区间窄得离谱,看似“显著”实则是假象。Epoch AI修正后的真实值α ≈ 0.3478,β ≈ 0.3658,再次确认Chinchilla模型和数据等比增长的方向,但原论文具体数字需修正。

数据墙:训练数据的困境

此前所有关于Scaling Laws的讨论都基于训练数据无限、不重复的前提,但人类生产的高质量文本数据预计2026到2028年就会耗尽,只能重复训练。而重复数据的价值指数衰减,Muennighoff等人引入“有效数据量”概念,同一批数据反复训练,边际价值遵循D_eff = U*(1 - e^(-R))规律,每多一轮收益递减。

Lovelace等人2026年的新工作显式建模了过拟合惩罚项,发现强weight decay可有效缓解重复训练的过拟合。

Scaling Laws:敏感的观测性指南

翁荔在博客里嵌了交互式模拟器,调整拟合精度、噪声水平、拟合区间等参数,会发现看似无关紧要的工程选择,如loss保留几位小数、噪声在0.001量级,都能导致外推预测差出十万八千里。这表明Scaling Laws不是物理定律,而是对工程细节高度敏感的观测性指南。

编辑观点:翁荔的文章深入剖析了Scaling Laws,揭示了行业研究中的问题和数据困境,为大模型训练提供了更严谨的思考方向,对行业发展有重要指导意义。

http://www.jsqmd.com/news/1084063/

相关文章:

  • 61+技能、92+命令、67+智能体:ECC到底值不值得用?
  • 油层物理——3. 油气藏烃类的相态和汽液平衡
  • 小白 程序员 6 个低门槛 AI 副业,零基础也能月入 2w+
  • Windows 11安卓应用运行深度解析:从零到精通的三段式进阶之旅
  • 5分钟掌握终极浏览器资源嗅探:猫抓Cat-Catch完全免费指南
  • 到底需要多少算力?
  • Scrapy-Redis 分布式爬虫实战——从单机到集群
  • 亲测好用的视频号团购服务商分享
  • 云原生技术21-边缘计算+云原生:让计算力“下沉“到最后一公里,K3s/KubeEdge:在树莓派上跑Kubernetes是什么体验
  • AI医疗时代下的互联网医院APP开发方案解析
  • 360互联网安全大会聚焦智能体威胁,“中国版Mythos”能否破网络安全困局?
  • Apache Dubbo:企业级微服务框架的标杆
  • 基于mac80211_hwsim搭建WiFi模拟测试环境(下)-- 环境搭建与测试
  • LinkSwift:九大网盘直链解析工具,开启高速下载新体验
  • 5分钟掌握《经济研究》LaTeX模板:告别格式困扰的专业解决方案
  • Windows PDF处理终极方案:Poppler预编译包完整指南
  • 轻松打造企业专属应用,低代码开发来助力
  • Cesium 使用Shadertoy教程
  • ASIL-D到底有多难达到?从ISO 26262看车规MCU的研发门槛
  • Windows热键冲突检测工具:Hotkey Detective的完整使用指南
  • ESP32智慧养殖盒开发:4G联网与GPS追踪实战
  • AI语音输入全面进步,BAT入局输入法,能否带来新体验?
  • 记录分布式事务的实现方式和用法(有借助AI)
  • Web开发
  • Cesium 后期处理教程
  • 设计数据密集型应用第2版:2025-2026出版新书的《人月神话》引用(4)
  • 夏天总疲惫乏力、容易累、爱出汗的人,常喝这杯茶,养出元气满满好状态~
  • 【MATLAB】时变障碍物无人机动态规避仿真
  • Cesium 动态围墙教程
  • Oracle SQL Plus 如何不显示结果集 (TERMOUT OFF)