1.大模型训练主要阶段与应用价值
一、大模型市场
1. 云侧大模型
- 定义:部署在云服务商平台(如阿里云、腾讯云、华为云)的接口模型
- 特点:
- 参数量极大(数百B级别)
- 部署成本高,需专业云厂商支持
- 用户通过API调用,使用成本低廉
- 代表产品:通义千问、文心一言、豆包SEED模型、Kimi等
- 发展趋势:最终主要由头部科技公司留存
2. 端侧大模型
- 部署位置:手机、PC、汽车等终端设备
- 特点:
- 参数量相对较小(20B-40G级别)
- 本地化部署策略
- 典型代表:GPT-Toss 20B模型
- 技术突破:
- 蒸馏技术使小模型具备接近大模型的能力
- 30B模型与600B模型在部分场景差异不明显
二、大模型训练的几个阶段
1. 预训练阶段
- 产出:Base模型(基础语言模型)
- 数据需求:千亿级单词的原始文本(图书、百科、网页等)
- 训练原理:
- 采用自监督学习,原始文本即标注数据
- 通过mask预测下一个token(如输入"本报"预测"讯")
- 学习文本序列的概率分布关系
- 资源消耗:1000+GPU,月级别训练时间
1)例题:百度新闻大模型训练
- 训练过程:
- 将新闻文本切分后输入模型
- 模型学习"本报讯"等固定表达的概率关系
- 通过预测准确率优化损失函数
- 技术局限:本质仍是概率模型,存在生成随机性
2. 有监督微调阶段
- 输入:Base模型 + 标注指令数据(数万用户指令)
- 产出:Instruct/Chat模型(如ModelScope上的各类Chat模型)
- 作用:
- 使模型具备任务执行能力(意图识别、情感分类等)
- 类比:在学会拼音基础上培养阅读理解能力
- 资源需求:1-100GPU,天级别训练时间
3. 强化学习阶段
- 目标:人类偏好对齐
- 主要方法:
- PPO算法(OpenAI提出):
- 训练奖励模型(RM)对输出评分
- 引导模型参数向高分方向优化
- 新兴方法(如DPO):
- 不依赖独立奖励模型
- 隐式学习人类偏好
- PPO算法(OpenAI提出):
- 效果:
- 确保回复礼貌得体(避免辱骂等不良输出)
- 使模型行为符合社会伦理规范
- 资源需求:1-100GPU,天级别训练时间
4. 微调阶段
- 定位:垂直领域适配(企业级应用重点)
- 优势:
- 基于大厂基模(如GPT-Toss 20B)二次开发
- 少量领域数据即可获得显著效果提升
- 实践意义:
- 98%企业的实际接触层面
- 资源需求远低于前三阶段(典型需求:单卡GPU)
三、大模型微调价值与应用价值
1. 微调可实现
- 知识灌注:通过微调将特定领域知识(如旅游行业术语)注入模型参数,使模型输出更符合领域特点。例如微调旅游数据集后,模型能基于专业知识回答相关问题,避免"跑偏"回答。
- 任务适配:调整模型输出格式以适应特定任务需求。典型案例是将自然语言输出改为分类标签输出(如情绪识别中的"开心/沮丧/悲伤/愤怒"标签),这是效果最好的微调类型之一。
- 能力纠偏:通过数据配比调整改善模型能力不平衡问题。例如用80%数学题+20%其他领域数据微调,可显著提升模型数学解题能力。
- 降低尺寸:通过微调小型模型(如1.5B参数模型)使其性能接近大模型,降低部署成本,特别适合VR眼镜等资源受限设备。
- 减少幻觉:针对垂直领域(如医疗)进行增量训练,可减少该领域的错误输出。但无法完全根除,因幻觉本质是训练数据概率分布问题。
- 强化Agent能力:通过复杂数据集训练提升工具调用能力,包括并行/串行调用决策。但数据集构建难度极高,需包含工具选择、调用顺序等完整逻辑。
2. 微调无法实现
- 突破参数上限:无法让弱模型(如1.5B)具备大模型(如675B)的能力,模型性能受参数量硬性限制。
- 改变基础架构:无法解决预训练模型的固有缺陷,如原本不具备工具调用能力的模型通过微调也无法获得该能力。
- 实时更新:无法获取训练时点后的新信息,需依赖外部检索等补充手段。模型版本迭代周期通常需数月(如GPT系列)。
- 根除幻觉:因本质是概率模型特性,当遇到训练数据中低频组合时仍可能产生错误输出。例如医疗术语在政治语境下的误用。
- 个性化适配:无法实时响应用户偏好的动态变化,微调结果是静态的参数更新。
- 能力突变:无法让基础能力缺失的模型突然获得全新能力,微调仅能做"锦上添花"的优化。
四、知识小结
知识点 | 核心内容 | 考试重点/易混淆点 | 难度系数 |
大模型分类 | 分为云测大模型(如阿里云、腾讯云部署的接口模型)和端测大模型(如通义千问、文心一言、豆包等) | 云测大模型参数量大、部署成本高;端测大模型参数量较小,本地化部署 | ⭐⭐ |
大模型训练阶段 | 1. 预训练阶段:学习文本概率关系(如输入“本报”预测“讯”) 2. 有监督微调(SFT):适配下游任务(如意图识别) 3. 强化学习(RLHF):对齐人类偏好(如避免骂人) | 预训练无需标注数据;强化学习依赖奖励模型或隐式奖励(如DPO) | ⭐⭐⭐⭐ |
微调的价值 | 1. 知识灌注(如旅游领域适配) 2. 任务适配(如意图分类标签输出) 3. 能力纠偏(如提升数学能力) 4. 降低部署成本(小模型强化) | 微调无法突破基座模型能力上限(如1.5B模型无法达到675B效果) | ⭐⭐⭐ |
Agent能力 | 通过微调提升工具调用能力,但数据集构建复杂(需涵盖并行/串行调用逻辑) | 开源项目较少因数据集难构建 | ⭐⭐⭐⭐ |
模型幻觉 | 因概率式输出本质导致,微调可缓解但无法根除(如医疗术语误用于政治领域) | 依赖外部知识库补充实时信息 | ⭐⭐⭐ |
