当前位置：首页 > news >正文

LLM专项

news 2026/7/15 2:44:44

pretraining 预训练

为什么要pretraining

为何千亿参数必须做预训练？随机初始化为何不可行

预训练≠微调，预训练是模型初始权重分布塑造
自回归预训练、掩码语言预训练、多模态预训练

Pretraining的定义

利用海量无标注通用原始数据，通过自监督学习任务，让模型学习语言规律、世界常识、语法逻辑、语义关联、文本分布，完成权重全局初始化的前置训练阶段。

数据：无标注、全网通用文本、体量极大
监督信号：自监督，无人工标签
目标：拟合自然语言分布，习得通用先验知识
阶段：模型从零开始，第一轮大规模训练

两大主流预训练技术范式

AR 自回归预训练（GPT 系列核心）

训练任务：下一词预测 NTP
训练逻辑：已知前 n 个 token，预测第 n+1 个 token
损失函数：交叉熵逐词预测损失
适用场景：生成式大模型、对话、续写、长文本创作
学术痛点：单向语义依赖，无法双向理解

MLM 掩码语言预训练（BERT 系列核心）

训练任务：掩码 token 预测
训练逻辑：随机遮盖句子中部分 token，模型还原被遮盖词
优势：双向上下文语义建模，强理解弱生成
延伸：Whole Word Masking 进阶策略

延伸
T5 统一文本范式预训练
大语种 / 小语种预训练数据配比策略

预训练工程与学术难点

数据层：通用预训练数据清洗、去重、降噪、领域过滤
训练层：分布式预训练、ZeRO、混合精度、梯度累积
理论层：预训练知识遗忘、灾难性预训练偏移
收敛判定：预训练停止阈值、困惑度 PPL 评估指标

思考

纯领域数据能否替代通用预训练？

小模型预训练与超大模型预训练逻辑差异

长文本预训练：滑动窗口、稀疏注意力预训练优化

posttraining 后训练

posttraining定义

在完整预训练权重基础之上，使用领域数据、指令数据、偏好数据、专业标注数据，进行二次及以上定向增量训练，对预训练通用能力进行定向强化、能力对齐、领域适配的所有训练阶段统称后训练。

数据：少量高质量、定向标注 / 筛选数据
目的：不改变通用底座，强化专项能力
不从零训练，冻结 / 微调预训练主干均可

类型

领域后训练（Domain Post-training）

数据：论文、代码、医疗、金融、法律等垂直领域无标注文本
训练方式：沿用预训练任务继续增量训练
作用：让通用模型适配领域话术、专业术语、行业逻辑
科研场景：行业大模型底座适配

指令后训练（Instruction Post-training）

指令后训练 SFT（监督微调，核心后训练）
数据：用户指令 + 标准回答配对数据
训练目标：对齐人类指令遵循逻辑
区别预训练：有明确人机交互监督信号

偏好对齐后训练（RLHF/DPO 均属于后训练范畴）

对齐类后训练（RLHF、DPO、IPO）
属于高阶后训练，完成价值观、安全性、人类偏好对齐
逻辑：在 SFT 后继续做偏好优化，彻底脱离通用预训练目标

查看全文

http://www.jsqmd.com/news/854833/

别再为多品牌摄像头头疼了！用Java+ONVIF协议统一控制云台和回放的实战踩坑记录

2026年20kHz超声波焊接机技术全解：三槽超声波清洗机/全自动超声波清洗机/全自动超声波焊接机/医用超声波清洗机/选择指南 - 优质品牌商家

避坑指南：Keil uVision5安装激活全流程（含C51/MDK双版本、Win11系统适配及汉化问题）

2026绵阳美新家政联系方式及服务实力深度解析：绵阳市美新家政服务有限公司联系/整理收纳培训/早教师培训/月嫂培训/选择指南 - 优质品牌商家

2026年出国务工正规劳务公司TOP5合规技术解析：正规出国务工劳务公司、正规出国务工机构、中高端就业公司、出国劳务公司选择指南 - 优质品牌商家

Linux内核死锁检测利器lockdep：原理、实战与深度调优

2026年专业单槽超声波清洗机哪家强：双槽超声波清洗机/台式超声波焊接机/吻合器超声波焊接机/塑料超声波焊接机/选择指南 - 优质品牌商家

STM32F103驱动TM1650数码管：从硬件连接到完整代码的保姆级避坑指南

从胚胎到成年：ChatGPT 的前世今生【520 科普特辑】

从选型到设计：手把手教你根据7系列FPGA数据手册做项目选型（以Kintex-7为例）

HP ProLiant MicroServer Gen8 CPU支持列表

Redis Stream 消费组报错 BUSYGROUP 是什么意思？

终极指南：3分钟掌握Mousecape，让你的macOS光标焕然一新

防爆液下泵技术选型与运维指南：地坑泵、多级液下泵、悬臂式液下泵、悬臂液下泵、料浆液下泵、无泄漏化工泵、无泄漏液下泵选择指南 - 优质品牌商家

本科论文AI率37%怎么降？2026实测3款免费降AI工具+知网到8%

抖音内容采集系统架构设计与工程实践

360T7路由器无线中继保姆级教程：5分钟搞定信号扩展，告别WiFi死角

2026越南公司注册新规解读及合规服务机构技术分析 - 优质品牌商家

ESP32 EC11编码器控制电机速度？避坑指南：PWM频率、占空比与电机驱动的那些事儿

宽带数字阵列波束形成技术【附程序】

化工自吸泵实测评测：耐酸碱自吸泵/自吸污水泵/自吸离心泵/蒸发强制循环泵/蒸发混流泵/蒸发结晶循环泵/蒸发轴流泵/选择指南 - 优质品牌商家

Ubuntu 20.04桌面管理器搞乱了？别慌，手把手教你找回原版GNOME桌面（附LightDM/GDM3切换命令）

嵌入式Linux设备树：从源码结构到二进制格式的完整解析

跨境同行都在用 AI Agent，你还在手动处理订单？—— 实在Agent 全自动化实战指南

Inter字体终极指南：从零开始掌握现代界面设计的免费开源字体方案

团队冲刺阶段（个人）

Google宣布推出AI设计应用Pics，剑指Canva市场

手搓科研绘图依旧很权威，如何快速绘制顶刊论文插图呢？

用Python+SimpleITK搞定LUNA16肺实质分割：从CT原始数据到ROI提取的保姆级代码解析