当前位置：首页 > news >正文

大模型训练基本概念

news 2026/4/2 4:26:09

Scaling Laws 第一定律

OpenAI 在 2020 年的论文中提出了 Scaling Laws（扩展定律），证明了 LLM 的性能（以交叉熵损失衡量）遵循一定的数学幂律关系（Power-law）。即：大预言模型的 Loss（损失函数）值与模型参数量（N）、训练数据量（D）、计算资源量（C）这 3 者之间存在着稳定且可预测的数学关系。

L：损失函数，收到 N、D、C 的影响。
α、β、γ：常数系数，α≈0.076、β≈0.095、γ≈0.05，实际值因任务不同略有调整。

如上图所示：

模型参数量（N）：模型的总参数规模越大，损失越低。例如：将参数量从 1 亿增至 10 亿，损失下降幅度超过线性增长预期。
计算资源量（C）：训练所用的浮点运算量（FLOPs）与损失呈反向幂律关系，即：更多的计算资源可显著提升模型效果。
训练数据量（D）：在 C 和 N 固定时，增加 D 可以缓解过度拟合，但存在边际递减效应。如下图所示，当 C 固定时，需要找到一个最低点的 D。

所以，大模型训练需要关注 3 要素的平衡扩展。若仅扩大其中一项而其他两项受限，将导致收益显著降低。例如，若模型参数增加 8 倍，训练数据需至少增加 5 倍才能避免过拟合。

简而言之，Scaling Laws 证明了随着 N、D、C 的增加，LLM 的性能会持续改善，而且在相当长的发展阶段内没有明显的天花板效应。也因此 Scaling Law 为 AI 行业发展提供了关键的底层逻辑支撑 ——规模优先于算法：在 Scaling Law 之前，AI 研究普遍专注在算法创新（如层数、注意力头数、宽度与深度比例）。Scaling Law 之后，通过简单地扩大模型的参数规模，就可以持续获得性能提升。这解释了为什么从 GPT-3 到 GPT-4，模型的参数规模一直在扩大。先扩大规模，再进行算法改进和优化才是正确的路径。

当前已知最大的模型是 GPT-4（万亿级），而 OpenAI 员工透露 GPT-5 的参数量是 GPT-4 的 10 倍。

大模型训练全流程

阶段	数据驱动	训练成本	训练效果
1. 预训练阶段	依赖海量无标注数据，万亿级数据量。	成本最高，千卡万卡。	博而不精。
2. 微调阶段	依赖高质量标注数据，百万~千万级数据量。	成本中等，十卡百卡。	精而专用。
3. 提示词阶段	依赖提示词和上下文数据，百~千级数据量。	零算力成本。	高效应用。

预训练阶段（Pre-Training）

Random Model（随机模型）：模型的初始状态，所有权重参数都是随机赋值的，不具备任何语言理解或生成能力。

Pre-Training Data（预训练数据）：海量、多样化的无标注文本数据，规模通常达到万亿 tokens 级别（如 GPT-3 训练数据约 45TB 文本），涵盖书籍、网页、论文、新闻等，确保模型接触到广泛的语言现象和知识。通过这些数据，模型能自动捕捉语法、语义、逻辑关系和世界常识。数据来源包括 Common Crawl（互联网网页爬取数据）和社交媒体数据（如微博、推特等）。

Pre-Trained Model（预训练模型）：通过 “自监督学习” 从海量数据中经过预训练后得到的基础模型（如 GPT、Llama、BERT），具备通用语言理解和生成能力，但不理解特定私域知识和不擅长特定任务。是后续所有优化的基础，是大模型能力的 “源头”。

微调阶段（Fine-Tuning）

In-Domain Data（领域数据/指令数据）：小规模、高质量的标注数据，规模通常为百万-千万 tokens 级别，但标注成本高，需人工设计或筛选。分为两类：

领域数据：特定场景的数据（如医疗文献、法律条款）；
指令数据：人类撰写的 “指令-响应” 或 “问题-答案” 对。

Fine-Tuned Model（微调后模型）：使用 In-Domain Data 对基础模型的部分参数进行 “定制” 后的最终模型，以优化特定任务性能（如客服、代码生成等）。常见的微调方式有：

SFT（Supervised Fine-Tuning，有监督微调）：直接用指令数据训练，让模型学会理解和执行任务。
RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）：先让人类对模型输出打分，训练一个 “奖励模型”，再用强化学习（如 PPO 算法）让模型优化输出，使其更符合人类偏好。