当前位置: 首页 > news >正文

大模型训练基本概念

目录

文章目录

  • 目录
  • Scaling Laws 第一定律
  • 大模型训练全流程
    • 预训练阶段(Pre-Training)
    • 微调阶段(Fine-Tuning)
    • 提示工程阶段(Prompting)

Scaling Laws 第一定律

OpenAI 在 2020 年的论文中提出了 Scaling Laws(扩展定律),证明了 LLM 的性能(以交叉熵损失衡量)遵循一定的数学幂律关系(Power-law)。即:大预言模型的 Loss(损失函数)值与模型参数量(N)、训练数据量(D)、计算资源量(C)这 3 者之间存在着稳定且可预测的数学关系。

  • L:损失函数,收到 N、D、C 的影响。
  • α、β、γ:常数系数,α≈0.076、β≈0.095、γ≈0.05,实际值因任务不同略有调整。

    如上图所示:
  1. 模型参数量(N):模型的总参数规模越大,损失越低。例如:将参数量从 1 亿增至 10 亿,损失下降幅度超过线性增长预期。
  2. 计算资源量(C):训练所用的浮点运算量(FLOPs)与损失呈反向幂律关系,即:更多的计算资源可显著提升模型效果。
  3. 训练数据量(D):在 C 和 N 固定时,增加 D 可以缓解过度拟合,但存在边际递减效应。如下图所示,当 C 固定时,需要找到一个最低点的 D。

所以,大模型训练需要关注 3 要素的平衡扩展。若仅扩大其中一项而其他两项受限,将导致收益显著降低。例如,若模型参数增加 8 倍,训练数据需至少增加 5 倍才能避免过拟合。

简而言之,Scaling Laws 证明了随着 N、D、C 的增加,LLM 的性能会持续改善,而且在相当长的发展阶段内没有明显的天花板效应。也因此 Scaling Law 为 AI 行业发展提供了关键的底层逻辑支撑 ——规模优先于算法:在 Scaling Law 之前,AI 研究普遍专注在算法创新(如层数、注意力头数、宽度与深度比例)。Scaling Law 之后,通过简单地扩大模型的参数规模,就可以持续获得性能提升。这解释了为什么从 GPT-3 到 GPT-4,模型的参数规模一直在扩大。先扩大规模,再进行算法改进和优化才是正确的路径。

当前已知最大的模型是 GPT-4(万亿级),而 OpenAI 员工透露 GPT-5 的参数量是 GPT-4 的 10 倍。

大模型训练全流程

阶段数据驱动训练成本训练效果
1. 预训练阶段依赖海量无标注数据,万亿级数据量。成本最高,千卡万卡。博而不精。
2. 微调阶段依赖高质量标注数据,百万~千万级数据量。成本中等,十卡百卡。精而专用。
3. 提示词阶段依赖提示词和上下文数据,百~千级数据量。零算力成本。高效应用。

预训练阶段(Pre-Training)

Random Model(随机模型):模型的初始状态,所有权重参数都是随机赋值的,不具备任何语言理解或生成能力。

Pre-Training Data(预训练数据):海量、多样化的无标注文本数据,规模通常达到万亿 tokens 级别(如 GPT-3 训练数据约 45TB 文本),涵盖书籍、网页、论文、新闻等,确保模型接触到广泛的语言现象和知识。通过这些数据,模型能自动捕捉语法、语义、逻辑关系和世界常识。数据来源包括 Common Crawl(互联网网页爬取数据)和社交媒体数据(如微博、推特等)。

Pre-Trained Model(预训练模型):通过 “自监督学习” 从海量数据中经过预训练后得到的基础模型(如 GPT、Llama、BERT),具备通用语言理解和生成能力,但不理解特定私域知识和不擅长特定任务。是后续所有优化的基础,是大模型能力的 “源头”。

微调阶段(Fine-Tuning)

In-Domain Data(领域数据/指令数据):小规模、高质量的标注数据,规模通常为百万-千万 tokens 级别,但标注成本高,需人工设计或筛选。分为两类:

  1. 领域数据:特定场景的数据(如医疗文献、法律条款);
  2. 指令数据:人类撰写的 “指令-响应” 或 “问题-答案” 对。

Fine-Tuned Model(微调后模型):使用 In-Domain Data 对基础模型的部分参数进行 “定制” 后的最终模型,以优化特定任务性能(如客服、代码生成等)。常见的微调方式有:

  • SFT(Supervised Fine-Tuning,有监督微调):直接用指令数据训练,让模型学会理解和执行任务。
  • RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习):先让人类对模型输出打分,训练一个 “奖励模型”,再用强化学习(如 PPO 算法)让模型优化输出,使其更符合人类偏好。

提示工程阶段(Prompting)

在不修改模型参数的前提下,通过 Prompting 或 In-Context Learning 引导模型输出所需结果:

  • In-Context Learning(上下文学习):在输入中加入少量 few-shot examples,让模型通过模仿示例完成任务,无需训练。
  • Prompting(提示工程):通过精心设计的 Prompt,引导模型生成特定格式或内容的输出。
http://www.jsqmd.com/news/199908/

相关文章:

  • 常见的直流降压芯片电路
  • PostIn速成手册(10) - 导入swagger、OpenApi数据,实现数据迁移
  • 揪针疗法适用于哪些科室的哪些病症?
  • 快速高效注册申请办理马德里国际商标:五家靠谱代办咨询公司机构盘点 - 速递信息
  • 从数据看真相:2025年度充电桩品牌市场份额与用户口碑双榜 - 速递信息
  • UltraISO提取引导扇区用于GLM系统镜像定制
  • 2026年1月沙坪坝二手ModelS,特斯拉二手车,Model3二手车公司推荐,车况检测与口碑解析 - 品牌鉴赏师
  • 火山引擎AI大模型API收费模式 vs GLM-4.6V-Flash-WEB本地部署成本分析
  • 解决 Blockscout batch too large 错误的完整指南 - 若
  • GXHT30温湿度传感器
  • 智能耐腐蚀!氢氧化钠泵选型指南和优质厂家推荐 - 品牌2025
  • 西安居民搬家公司哪家强?2026年1月实力推荐榜出炉 - 深度智识库
  • 【Dify响应类型配置全攻略】:掌握高效API响应的5大核心技巧
  • 别再盲目升级了!Dify 1.11.1兼容性问题测试汇总及避坑指南
  • Dify API调用全链路监控方案,快速定位生产环境问题
  • 改进的数值解析法PCB热建模方法,考虑辐射传热及元件温度计算附Matlab代码
  • HuggingFace镜像网站token认证访问私有GLM模型
  • 你还在手动处理DOCX图片?Dify自动化方案让效率翻倍,省时又精准
  • 2026西安搬家公司大测评:居民搬家、单位搬迁、长短途运输口碑推荐 - 深度智识库
  • 【程序员必看】Meta收购Manus创历史第三,豆包日活破亿!大模型编程开发迎来黄金时代!
  • JavaScript节流控制GLM-4.6V-Flash-WEB请求频率
  • Dify凭证配置失败?教你3步快速定位并解决高频报错问题
  • 改进距离继电器中功率摆动阻塞和解阻塞功能的新方法附Matlab代码
  • 揭秘Dify DOCX图片压缩黑科技:如何实现秒级优化与清晰度保留
  • sward快速上手指南 - 如何做好文档评审
  • 强烈安利8个AI论文软件,专科生轻松搞定毕业论文!
  • 架起合作桥,共拓新蓝海——OTTO助力越南卖家掘金欧洲市场 - 速递信息
  • MyBatisPlus逻辑删除配置避免GLM数据物理删除
  • 有南京35+岁的Java开发失业一年多 还没找到工作的吗?
  • 高效的多分辨率融合技术对具有标签不确定性的遥感数据进行处理附Matlab代码