pretraining 预训练
为什么要pretraining
为何千亿参数必须做预训练?随机初始化为何不可行
预训练≠微调,预训练是模型初始权重分布塑造
自回归预训练、掩码语言预训练、多模态预训练
Pretraining的定义
利用海量无标注通用原始数据,通过自监督学习任务,让模型学习语言规律、世界常识、语法逻辑、语义关联、文本分布,完成权重全局初始化的前置训练阶段。
数据:无标注、全网通用文本、体量极大
监督信号:自监督,无人工标签
目标:拟合自然语言分布,习得通用先验知识
阶段:模型从零开始,第一轮大规模训练
两大主流预训练技术范式
AR 自回归预训练(GPT 系列核心)
训练任务:下一词预测 NTP
训练逻辑:已知前 n 个 token,预测第 n+1 个 token
损失函数:交叉熵逐词预测损失
适用场景:生成式大模型、对话、续写、长文本创作
学术痛点:单向语义依赖,无法双向理解
MLM 掩码语言预训练(BERT 系列核心)
训练任务:掩码 token 预测
训练逻辑:随机遮盖句子中部分 token,模型还原被遮盖词
优势:双向上下文语义建模,强理解弱生成
延伸:Whole Word Masking 进阶策略
延伸
T5 统一文本范式预训练
大语种 / 小语种预训练数据配比策略
预训练工程与学术难点
数据层:通用预训练数据清洗、去重、降噪、领域过滤
训练层:分布式预训练、ZeRO、混合精度、梯度累积
理论层:预训练知识遗忘、灾难性预训练偏移
收敛判定:预训练停止阈值、困惑度 PPL 评估指标
思考
纯领域数据能否替代通用预训练?
小模型预训练与超大模型预训练逻辑差异
长文本预训练:滑动窗口、稀疏注意力预训练优化
posttraining 后训练
posttraining定义
在完整预训练权重基础之上,使用领域数据、指令数据、偏好数据、专业标注数据,进行二次及以上定向增量训练,对预训练通用能力进行定向强化、能力对齐、领域适配的所有训练阶段统称后训练。
数据:少量高质量、定向标注 / 筛选数据
目的:不改变通用底座,强化专项能力
不从零训练,冻结 / 微调预训练主干均可
类型
领域后训练(Domain Post-training)
数据:论文、代码、医疗、金融、法律等垂直领域无标注文本
训练方式:沿用预训练任务继续增量训练
作用:让通用模型适配领域话术、专业术语、行业逻辑
科研场景:行业大模型底座适配
指令后训练(Instruction Post-training)
指令后训练 SFT(监督微调,核心后训练)
数据:用户指令 + 标准回答配对数据
训练目标:对齐人类指令遵循逻辑
区别预训练:有明确人机交互监督信号
偏好对齐后训练(RLHF/DPO 均属于后训练范畴)
对齐类后训练(RLHF、DPO、IPO)
属于高阶后训练,完成价值观、安全性、人类偏好对齐
逻辑:在 SFT 后继续做偏好优化,彻底脱离通用预训练目标
