当前位置: 首页 > news >正文

RAG 还是预训练?三维 Scaling Laws 决策指南(非常硬核),数据分配策略从入门到精通,收藏这一篇就够了!

一句话讲清楚👉🏻Stanford和Patronus AI的团队做了一件之前没人系统做过的事:研究预训练数据和检索数据之间怎么分配最划算。他们从30M到3B参数训练了OLMo-2模型,提出三维Scaling Law框架。结论很直接——固定数据预算下有个交叉点(约4.14 tokens/parameter),过了这个点检索可以替代预训练,而且小模型吃到的红利最大。


研究背景:Scaling Laws没覆盖到的地方

Kaplan等人在2020年提出Scaling Laws(缩放定律)后,这套框架一直指导着语言模型训练。它告诉我们:模型性能会随着参数量和训练token数的增加而可预测地提升。Chinchilla进一步证明,计算最优的训练需要同时扩展模型规模和数据规模。

但现有的Scaling Laws有个明显的盲区:它们把训练语料当成一个整体,默认所有数据都应该塞进模型权重里。

RAG(检索增强生成)改变了这个前提。它引入了一个新的自由度——语料的一部分可以存在外部,推理时再取出来用。这两种方式的计算成本、归纳偏置和失败模式完全不同:

  • 预训练把知识存在模型权重里(参数化),训练贵,推理时没有额外开销
  • 检索把知识存在外部索引里(非参数化),训练几乎不花钱,推理时有检索开销

所以问题来了:给定N个token的固定语料,预训练数据和检索存储之间怎么分?

这是个资源分配问题。之前有不少工作把检索整合到语言模型里,但没人系统地回答过:预训练期间,多少数据该分给权重,多少该分给检索。

固定数据预算下预训练与检索的权衡。左图:研究者在DCLM数据上训练30M到3B参数的OLMo-2模型,同时从同一语料的保留部分构建检索存储。中图:将问题概念化为二维分配空间的优化问题。右图:在固定预训练规模下,检索分配的比例与性能呈现非单调关系,且存在规模依赖性——小模型获益最大,大模型则出现边际效益递减。

实验设置:从30M到3B的全尺度研究

模型与数据

研究团队选了OLMo-2系列,定义了6个模型规模:

模型规模层数隐藏维度注意力头数
30M82564
136M85128
233M1664010
728M18128010
1B24140811
3B26256020

预训练语料用100B token的DCLM数据集。所有模型用AdamW优化器,峰值学习率3×10⁻⁴,warmup-stable-decay(WSD)学习率调度。

检索索引构建

检索索引从DCLM的保留部分构建,用FAISS库。几个关键设计:

  • 嵌入模型:4个候选里选了Qwen3-Embedding-8B(召回率最高)
  • 索引算法:IVFPQ(倒排文件+乘积量化)
  • 分块策略:900 token块长,256 token步长(约28%重叠)
  • 分词器:TikToken cl100k_base

检索语料规模从1B到20B token不等。所有不同规模的索引来自同一随机排列的前缀——小预算索引是大预算索引的严格子集,这样规模比较才可控。

评估协议

用RAG-Evaluation-Harness框架,覆盖多个benchmark:

  • 推理类:AI2-ARC(Easy和Challenge)、HellaSwag、PIQA、StrategyQA
  • 科学QA:OpenBookQA、SciQ
  • 开放域QA:Natural Questions、SimpleQA
  • 常识QA:CommonsenseQA

检索统一设top-5 passages,检索器在所有评估中冻结共享,隔离检索规模的影响。

评估指标用的是困惑度(Perplexity, PPL),不是传统的准确率(accuracy)。原因很简单:准确率在模型改进时经常阶梯式跳动——小的似然改善不一定改变预测标签,导致平坦区域后突然跳跃,会掩盖底层的Scaling趋势。困惑度提供连续的、长度归一化的度量,拟合Scaling Laws更合适。

参数化Scaling Baselines:验证实验设置

引入检索之前,研究团队先建立了无检索(R=0)的参数化Scaling基线,确认实验设置能复现经典的Scaling Law行为。

用经典的幂律形式建模损失:

其中:

  • 是模型参数量
  • 是预训练token数
  • 捕捉模型规模的缩放效应
  • 捕捉数据规模的缩放效应
  • 是不可约损失下限

无RAG的参数化Scaling基线。左图:跨模型规模和数据预算的经验测量,叠加幂律模型的等损失轮廓线。右图:Scaling表面的等计算切片,显示预测损失随模型规模的变化。

拟合结果和先前文献报告的Scaling指数基本一致,实验设置没问题。

三维Scaling Laws:引入检索维度

对数形式的检索Scaling Law

在2D参数化定律基础上加一个检索维度,用对数增益项:

其中:

  • 是检索/token数
  • 控制检索增益和饱和速率
  • 越大,检索带来的最大收益越大
  • 越大,随着增长,收益实现得越快

作为对比,研究也试了幂律形式的检索项:

结果是对数形式给出的检索速率参数更稳定、更好解释,所以主分析用对数形式,幂律形式做补充验证。

拟合质量

三维Scaling Law在大多数benchmark上拟合不错。交叉验证平均相对误差(CV ARE)较低,留一模型误差(LOMO)通常更高——内插比外推到未见过的模型规模容易。

推理密集型任务(PIQA和StrategyQA)稳定性差一些,误差更大,说明这些任务本身的Scaling行为噪声就大。

检索速率参数呈现两种模式:

  • 某些任务适中(约10⁻³到2),检索增益渐进
  • 另一些任务接近优化上限(接近10),在观察到的检索范围内快速饱和

预训练-检索权衡曲线:核心发现

替代性分析(Substitutability)

研究定义了一个关键指标——替代成本σ,每个检索token能替代多少预训练token:

其中是把RAG配置下的损失投影到无检索的Scaling曲线上得到的等效预训练预算。

预训练与检索的替代性分析。左图:通过拟合Scaling Laws计算每个预训练规模下匹配无检索基线性能所需的检索量,量化检索对预训练的替代能力。虚线为跨所有模型规模的线性最佳拟合线。右图:测量检索的边际效益,即每十亿检索token带来的困惑度改善(越高越好)。

发现一个清晰的交叉行为

低数据regime下,检索替代不了预训练。但预训练规模超过阈值——约4.14 Tokens Per Parameter(最佳拟合线估计)——检索开始变高效,每个检索token能替代多个预训练token。这个regime下,收益近似对数线性增长。

边际效益分析(Marginal Benefit)

边际效益定义为单位检索数据带来的损失减少:

其中(越高越好)。

小模型从检索中获益最大

30M参数模型的边际效益最高,每单位检索数据带来明显的困惑度改善。模型规模增大,边际效益递减,到3B参数时基本饱和。

也就是说,大模型规模下检索虽然仍是预训练的有效替代方案,但绝对改善随着模型趋于饱和而减少。

规模依赖的权衡

预训练和检索之间存在规模依赖的权衡。检索在欠训练和小模型regime下最有效,能强力替代预训练。模型规模和预训练量增加后,边际效用递减——从检索主导regime过渡到预训练主导regime。

RAG改进:检索质量的影响

研究团队比较了三种查询构建策略:

  1. RAG (Query):仅用问题检索
  2. RAG (Query + Choices):问题+答案选项(多选题适用)
  3. RAG (Query + Gold):问题+标准答案(Oracle式消融,近似最优检索上界)

SimpleQA上不同检索查询构建策略的性能对比。左图:OLMo-2 136M模型。右图:OLMo-2 1B模型。Baseline为无检索的标准生成。

结果:

  • 知识密集型任务(SimpleQA、CommonsenseQA)上,检索有适度增益,查询和答案对齐越好增益越明显
  • 改进随模型规模增大而增加
  • 推理密集型任务(GSM8K数学推理、LAMBADA词预测)上,检索几乎没变化

GSM8K和CommonsenseQA上不同检索查询构建策略的效果。两个面板都显示OLMo-2 1B模型随每参数预训练token数的变化。

LAMBADA上不同检索查询构建策略的效果。左图:OLMo-2 136M。右图:OLMo-2 1B。

结论和前面一致:检索不是预训练的均匀替代方案,有效性同时取决于模型规模和任务类型。

稳定性分析

为验证Scaling Law拟合的稳健性,研究团队评估了多个随机种子和模型初始化。三个模型家族(30M、136M、233M)各三个随机种子,共27次运行。

跨随机种子的Scaling Law拟合稳定性。报告27次独立拟合(3个模型家族×3个种子)的交叉验证ARE和留一模型ARE的均值与标准差。

大多数任务的CV ARE和LOMO ARE方差低,拟合的Scaling关系对初始化和数据排序稳定。推理密集型任务(PIQA、StrategyQA)方差较高,Scaling行为噪声更大。

校准曲线

研究团队提供了多个benchmark的校准曲线,展示不同预训练和检索配置下模型的置信度校准情况。

ARC Challenge校准曲线。

ARC Easy校准曲线。

HellaSwag校准曲线。

SciQ校准曲线。

CommonsenseQA校准曲线。

OpenBookQA校准曲线。

讨论与启示

对语言模型设计的实践指导

这项研究说清楚了一件事:预训练和检索不是独立的设计选择,而是同一数据预算下的两种竞争机制

实际的语言模型系统设计:

  1. 小模型/低数据regime:检索是最有效的知识增强手段,能替代大量预训练
  2. 大模型/高数据regime:检索边际效益递减,但仍是预训练的有效替代
  3. 知识密集型任务:检索收益比推理密集型任务高得多
  4. 检索质量重要:更好的查询构建和检索策略能进一步提升收益,但不会消除对参数化容量的需求

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/605736/

相关文章:

  • PT100测温电路精度上不去?可能是你的ADC选错了!从分辨率计算到AD4010实战
  • 从数据困境到主权掌控:WeChatMsg的技术突围之路
  • Bash 与 Dash 的区别与联系
  • 遥感数据与作物生长模型同化及在作物长势监测与估产中的应用
  • 2026龙门浩必吃麻辣鱼,选品牌不再愁,招牌美食/招牌江湖菜/辣子鸡/必吃美食/江湖川菜/江湖菜/麻辣鱼,麻辣鱼品牌推荐 - 品牌推荐师
  • 数据全景化:从“孤岛式建设”到“生态化运营”的架构突围(PPT)
  • 基于stm32的水质监测系统,有原理图,有protues仿真图,有pcb板图,有源码
  • kernelbase.dll丢失怎么办?手把手教你用DISM和SFC工具修复系统文件
  • 用PyTorch复现AlexNet:从零搭建一个猫狗分类器(附完整代码与数据集处理)
  • 告别串口线!用Android手机蓝牙SPP连接Arduino,实现传感器数据无线采集(附完整Kotlin代码)
  • 2026年热门的食堂承包/企业食堂承包/江门食堂承包/饭堂承包用户好评公司 - 行业平台推荐
  • 2026年质量好的通风管道/北京通风管道厂家推荐与选型指南 - 行业平台推荐
  • 开发者专属OpenClaw:Phi-3-mini-128k-instruct辅助代码审查
  • [Python3高阶编程] - Gunicorn 源代码阅读三:建立整体认知(E2E 看看一个 HTTP 请求是如何变成 WSGI 调用的)
  • 3步解锁B站缓存视频:m4s-converter终极转换指南
  • FXAS21002CQ陀螺仪驱动开发与多实例工程实践
  • Windows Defender安全组件高效管理工具使用指南
  • 2026四川简约入户门优质品牌推荐榜:进户门/防撬门/防爆门/防盗安全门/隔音门/静音门/保温门/别墅入户门/加厚防盗门/选择指南 - 优质品牌商家
  • PEFT实战:如何为自定义模型精准定位LoraConfig中的target_modules
  • Java学习笔记_Day23(HashMap)
  • 不止于调试:用 GDB-PEDA + Pwntools 打造你的 Kali 漏洞分析工作流
  • Atlassian Agent终极指南:快速免费激活JIRA、Confluence等企业工具
  • 应用打包:使用PyInstaller将Python脚本打包成独立的.exe可执行文件
  • OpenClaw配置优化:Qwen3.5-9B模型参数与网关性能调优
  • 为什么 Apple ID 无法下载应用?
  • Speedtest进阶:结合Prometheus长期监控局域网速率
  • 2026年评价高的抗摔抗压防护箱/宁波抗摔抗压防护箱源头工厂推荐 - 行业平台推荐
  • OpenClaw硬件选择:Phi-3-mini-128k-instruct不同设备运行对比
  • 2026年SCI论文AI率要求5%以下?这3款降AI工具期刊场景亲测
  • OpenClaw飞书机器人集成:SecGPT-14B实时安全告警推送