当前位置: 首页 > news >正文

LLM专项

pretraining 预训练

为什么要pretraining

为何千亿参数必须做预训练?随机初始化为何不可行

预训练≠微调,预训练是模型初始权重分布塑造
自回归预训练、掩码语言预训练、多模态预训练

Pretraining的定义

利用海量无标注通用原始数据,通过自监督学习任务,让模型学习语言规律、世界常识、语法逻辑、语义关联、文本分布,完成权重全局初始化的前置训练阶段。

数据:无标注、全网通用文本、体量极大
监督信号:自监督,无人工标签
目标:拟合自然语言分布,习得通用先验知识
阶段:模型从零开始,第一轮大规模训练

两大主流预训练技术范式

AR 自回归预训练(GPT 系列核心)

训练任务:下一词预测 NTP
训练逻辑:已知前 n 个 token,预测第 n+1 个 token
损失函数:交叉熵逐词预测损失
适用场景:生成式大模型、对话、续写、长文本创作
学术痛点:单向语义依赖,无法双向理解

MLM 掩码语言预训练(BERT 系列核心)

训练任务:掩码 token 预测
训练逻辑:随机遮盖句子中部分 token,模型还原被遮盖词
优势:双向上下文语义建模,强理解弱生成
延伸:Whole Word Masking 进阶策略

延伸
T5 统一文本范式预训练
大语种 / 小语种预训练数据配比策略

预训练工程与学术难点

数据层:通用预训练数据清洗、去重、降噪、领域过滤
训练层:分布式预训练、ZeRO、混合精度、梯度累积
理论层:预训练知识遗忘、灾难性预训练偏移
收敛判定:预训练停止阈值、困惑度 PPL 评估指标

思考

纯领域数据能否替代通用预训练?
小模型预训练与超大模型预训练逻辑差异
长文本预训练:滑动窗口、稀疏注意力预训练优化

posttraining 后训练

posttraining定义

在完整预训练权重基础之上,使用领域数据、指令数据、偏好数据、专业标注数据,进行二次及以上定向增量训练,对预训练通用能力进行定向强化、能力对齐、领域适配的所有训练阶段统称后训练。

数据:少量高质量、定向标注 / 筛选数据
目的:不改变通用底座,强化专项能力
不从零训练,冻结 / 微调预训练主干均可

类型

领域后训练(Domain Post-training)

数据:论文、代码、医疗、金融、法律等垂直领域无标注文本
训练方式:沿用预训练任务继续增量训练
作用:让通用模型适配领域话术、专业术语、行业逻辑
科研场景:行业大模型底座适配

指令后训练(Instruction Post-training)

指令后训练 SFT(监督微调,核心后训练)
数据:用户指令 + 标准回答配对数据
训练目标:对齐人类指令遵循逻辑
区别预训练:有明确人机交互监督信号

偏好对齐后训练(RLHF/DPO 均属于后训练范畴)

对齐类后训练(RLHF、DPO、IPO)
属于高阶后训练,完成价值观、安全性、人类偏好对齐
逻辑:在 SFT 后继续做偏好优化,彻底脱离通用预训练目标

http://www.jsqmd.com/news/854833/

相关文章:

  • 别再为多品牌摄像头头疼了!用Java+ONVIF协议统一控制云台和回放的实战踩坑记录
  • 2026年20kHz超声波焊接机技术全解:三槽超声波清洗机/全自动超声波清洗机/全自动超声波焊接机/医用超声波清洗机/选择指南 - 优质品牌商家
  • 避坑指南:Keil uVision5安装激活全流程(含C51/MDK双版本、Win11系统适配及汉化问题)
  • 告别踩坑!2024年最新版Petalinux 2022.1在Ubuntu 22.04上的保姆级安装与项目创建指南
  • 2026绵阳美新家政联系方式及服务实力深度解析:绵阳市美新家政服务有限公司联系/整理收纳培训/早教师培训/月嫂培训/选择指南 - 优质品牌商家
  • 2026年出国务工正规劳务公司TOP5合规技术解析:正规出国务工劳务公司、正规出国务工机构、中高端就业公司、出国劳务公司选择指南 - 优质品牌商家
  • Linux内核死锁检测利器lockdep:原理、实战与深度调优
  • 2026年专业单槽超声波清洗机哪家强:双槽超声波清洗机/台式超声波焊接机/吻合器超声波焊接机/塑料超声波焊接机/选择指南 - 优质品牌商家
  • STM32F103驱动TM1650数码管:从硬件连接到完整代码的保姆级避坑指南
  • 从胚胎到成年:ChatGPT 的前世今生【520 科普特辑】
  • 从选型到设计:手把手教你根据7系列FPGA数据手册做项目选型(以Kintex-7为例)
  • HP ProLiant MicroServer Gen8 CPU支持列表
  • Redis Stream 消费组报错 BUSYGROUP 是什么意思?
  • 终极指南:3分钟掌握Mousecape,让你的macOS光标焕然一新
  • 防爆液下泵技术选型与运维指南:地坑泵、多级液下泵、悬臂式液下泵、悬臂液下泵、料浆液下泵、无泄漏化工泵、无泄漏液下泵选择指南 - 优质品牌商家
  • 本科论文AI率37%怎么降?2026实测3款免费降AI工具+知网到8%
  • 抖音内容采集系统架构设计与工程实践
  • 360T7路由器无线中继保姆级教程:5分钟搞定信号扩展,告别WiFi死角
  • 2026越南公司注册新规解读及合规服务机构技术分析 - 优质品牌商家
  • ESP32 EC11编码器控制电机速度?避坑指南:PWM频率、占空比与电机驱动的那些事儿
  • 宽带数字阵列波束形成技术【附程序】
  • 化工自吸泵实测评测:耐酸碱自吸泵/自吸污水泵/自吸离心泵/蒸发强制循环泵/蒸发混流泵/蒸发结晶循环泵/蒸发轴流泵/选择指南 - 优质品牌商家
  • Ubuntu 20.04桌面管理器搞乱了?别慌,手把手教你找回原版GNOME桌面(附LightDM/GDM3切换命令)
  • 嵌入式Linux设备树:从源码结构到二进制格式的完整解析
  • 跨境同行都在用 AI Agent,你还在手动处理订单?—— 实在Agent 全自动化实战指南
  • Inter字体终极指南:从零开始掌握现代界面设计的免费开源字体方案
  • 团队冲刺阶段(个人)
  • Google宣布推出AI设计应用Pics,剑指Canva市场
  • 手搓科研绘图依旧很权威,如何快速绘制顶刊论文插图呢?
  • 用Python+SimpleITK搞定LUNA16肺实质分割:从CT原始数据到ROI提取的保姆级代码解析