当前位置：首页 > news >正文

RAG 还是预训练？三维 Scaling Laws 决策指南（非常硬核），数据分配策略从入门到精通，收藏这一篇就够了！

news 2026/4/8 4:56:51

一句话讲清楚👉🏻Stanford和Patronus AI的团队做了一件之前没人系统做过的事：研究预训练数据和检索数据之间怎么分配最划算。他们从30M到3B参数训练了OLMo-2模型，提出三维Scaling Law框架。结论很直接——固定数据预算下有个交叉点（约4.14 tokens/parameter），过了这个点检索可以替代预训练，而且小模型吃到的红利最大。

研究背景：Scaling Laws没覆盖到的地方

Kaplan等人在2020年提出Scaling Laws（缩放定律）后，这套框架一直指导着语言模型训练。它告诉我们：模型性能会随着参数量和训练token数的增加而可预测地提升。Chinchilla进一步证明，计算最优的训练需要同时扩展模型规模和数据规模。

但现有的Scaling Laws有个明显的盲区：它们把训练语料当成一个整体，默认所有数据都应该塞进模型权重里。

RAG（检索增强生成）改变了这个前提。它引入了一个新的自由度——语料的一部分可以存在外部，推理时再取出来用。这两种方式的计算成本、归纳偏置和失败模式完全不同：

预训练把知识存在模型权重里（参数化），训练贵，推理时没有额外开销
检索把知识存在外部索引里（非参数化），训练几乎不花钱，推理时有检索开销

所以问题来了：给定N个token的固定语料，预训练数据和检索存储之间怎么分？

这是个资源分配问题。之前有不少工作把检索整合到语言模型里，但没人系统地回答过：预训练期间，多少数据该分给权重，多少该分给检索。

固定数据预算下预训练与检索的权衡。左图：研究者在DCLM数据上训练30M到3B参数的OLMo-2模型，同时从同一语料的保留部分构建检索存储。中图：将问题概念化为二维分配空间的优化问题。右图：在固定预训练规模下，检索分配的比例与性能呈现非单调关系，且存在规模依赖性——小模型获益最大，大模型则出现边际效益递减。

实验设置：从30M到3B的全尺度研究

模型与数据

研究团队选了OLMo-2系列，定义了6个模型规模：

模型规模	层数	隐藏维度	注意力头数
30M	8	256	4
136M	8	512	8
233M	16	640	10
728M	18	1280	10
1B	24	1408	11
3B	26	2560	20

预训练语料用100B token的DCLM数据集。所有模型用AdamW优化器，峰值学习率3×10⁻⁴，warmup-stable-decay（WSD）学习率调度。

检索索引构建

检索索引从DCLM的保留部分构建，用FAISS库。几个关键设计：

嵌入模型：4个候选里选了Qwen3-Embedding-8B（召回率最高）
索引算法：IVFPQ（倒排文件+乘积量化）
分块策略：900 token块长，256 token步长（约28%重叠）
分词器：TikToken cl100k_base

检索语料规模从1B到20B token不等。所有不同规模的索引来自同一随机排列的前缀——小预算索引是大预算索引的严格子集，这样规模比较才可控。

评估协议

用RAG-Evaluation-Harness框架，覆盖多个benchmark：

推理类：AI2-ARC（Easy和Challenge）、HellaSwag、PIQA、StrategyQA
科学QA：OpenBookQA、SciQ
开放域QA：Natural Questions、SimpleQA
常识QA：CommonsenseQA

检索统一设top-5 passages，检索器在所有评估中冻结共享，隔离检索规模的影响。

评估指标用的是困惑度（Perplexity, PPL），不是传统的准确率（accuracy）。原因很简单：准确率在模型改进时经常阶梯式跳动——小的似然改善不一定改变预测标签，导致平坦区域后突然跳跃，会掩盖底层的Scaling趋势。困惑度提供连续的、长度归一化的度量，拟合Scaling Laws更合适。

参数化Scaling Baselines：验证实验设置

引入检索之前，研究团队先建立了无检索（R=0）的参数化Scaling基线，确认实验设置能复现经典的Scaling Law行为。

用经典的幂律形式建模损失：

其中：

是模型参数量
是预训练token数
捕捉模型规模的缩放效应
捕捉数据规模的缩放效应
是不可约损失下限

无RAG的参数化Scaling基线。左图：跨模型规模和数据预算的经验测量，叠加幂律模型的等损失轮廓线。右图：Scaling表面的等计算切片，显示预测损失随模型规模的变化。

拟合结果和先前文献报告的Scaling指数基本一致，实验设置没问题。

三维Scaling Laws：引入检索维度

对数形式的检索Scaling Law

在2D参数化定律基础上加一个检索维度，用对数增益项：

其中：

是检索/token数
控制检索增益和饱和速率
越大，检索带来的最大收益越大
越大，随着增长，收益实现得越快

作为对比，研究也试了幂律形式的检索项：

结果是对数形式给出的检索速率参数更稳定、更好解释，所以主分析用对数形式，幂律形式做补充验证。

拟合质量

三维Scaling Law在大多数benchmark上拟合不错。交叉验证平均相对误差（CV ARE）较低，留一模型误差（LOMO）通常更高——内插比外推到未见过的模型规模容易。

推理密集型任务（PIQA和StrategyQA）稳定性差一些，误差更大，说明这些任务本身的Scaling行为噪声就大。

检索速率参数呈现两种模式：

某些任务适中（约10⁻³到2），检索增益渐进
另一些任务接近优化上限（接近10），在观察到的检索范围内快速饱和

预训练-检索权衡曲线：核心发现

替代性分析（Substitutability）

研究定义了一个关键指标——替代成本σ，每个检索token能替代多少预训练token：

其中是把RAG配置下的损失投影到无检索的Scaling曲线上得到的等效预训练预算。

预训练与检索的替代性分析。左图：通过拟合Scaling Laws计算每个预训练规模下匹配无检索基线性能所需的检索量，量化检索对预训练的替代能力。虚线为跨所有模型规模的线性最佳拟合线。右图：测量检索的边际效益，即每十亿检索token带来的困惑度改善（越高越好）。

发现一个清晰的交叉行为。

低数据regime下，检索替代不了预训练。但预训练规模超过阈值——约4.14 Tokens Per Parameter（最佳拟合线估计）——检索开始变高效，每个检索token能替代多个预训练token。这个regime下，收益近似对数线性增长。

边际效益分析（Marginal Benefit）

边际效益定义为单位检索数据带来的损失减少：

其中（越高越好）。

小模型从检索中获益最大。

30M参数模型的边际效益最高，每单位检索数据带来明显的困惑度改善。模型规模增大，边际效益递减，到3B参数时基本饱和。

也就是说，大模型规模下检索虽然仍是预训练的有效替代方案，但绝对改善随着模型趋于饱和而减少。

规模依赖的权衡

预训练和检索之间存在规模依赖的权衡。检索在欠训练和小模型regime下最有效，能强力替代预训练。模型规模和预训练量增加后，边际效用递减——从检索主导regime过渡到预训练主导regime。

RAG改进：检索质量的影响

研究团队比较了三种查询构建策略：

RAG (Query)：仅用问题检索
RAG (Query + Choices)：问题+答案选项（多选题适用）
RAG (Query + Gold)：问题+标准答案（Oracle式消融，近似最优检索上界）

SimpleQA上不同检索查询构建策略的性能对比。左图：OLMo-2 136M模型。右图：OLMo-2 1B模型。Baseline为无检索的标准生成。

结果：

知识密集型任务（SimpleQA、CommonsenseQA）上，检索有适度增益，查询和答案对齐越好增益越明显
改进随模型规模增大而增加
推理密集型任务（GSM8K数学推理、LAMBADA词预测）上，检索几乎没变化

GSM8K和CommonsenseQA上不同检索查询构建策略的效果。两个面板都显示OLMo-2 1B模型随每参数预训练token数的变化。

LAMBADA上不同检索查询构建策略的效果。左图：OLMo-2 136M。右图：OLMo-2 1B。

结论和前面一致：检索不是预训练的均匀替代方案，有效性同时取决于模型规模和任务类型。

稳定性分析

为验证Scaling Law拟合的稳健性，研究团队评估了多个随机种子和模型初始化。三个模型家族（30M、136M、233M）各三个随机种子，共27次运行。

跨随机种子的Scaling Law拟合稳定性。报告27次独立拟合（3个模型家族×3个种子）的交叉验证ARE和留一模型ARE的均值与标准差。

大多数任务的CV ARE和LOMO ARE方差低，拟合的Scaling关系对初始化和数据排序稳定。推理密集型任务（PIQA、StrategyQA）方差较高，Scaling行为噪声更大。

校准曲线

研究团队提供了多个benchmark的校准曲线，展示不同预训练和检索配置下模型的置信度校准情况。

ARC Challenge校准曲线。

ARC Easy校准曲线。

HellaSwag校准曲线。

SciQ校准曲线。

CommonsenseQA校准曲线。

OpenBookQA校准曲线。

讨论与启示

对语言模型设计的实践指导

这项研究说清楚了一件事：预训练和检索不是独立的设计选择，而是同一数据预算下的两种竞争机制。

实际的语言模型系统设计：

小模型/低数据regime：检索是最有效的知识增强手段，能替代大量预训练
大模型/高数据regime：检索边际效益递减，但仍是预训练的有效替代
知识密集型任务：检索收益比推理密集型任务高得多
检索质量重要：更好的查询构建和检索策略能进一步提升收益，但不会消除对参数化容量的需求

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～