当前位置: 首页 > news >正文

1.大模型训练主要阶段与应用价值

一、大模型市场

1. 云侧大模型

  • 定义:部署在云服务商平台(如阿里云、腾讯云、华为云)的接口模型
  • 特点:
    • 参数量极大(数百B级别)
    • 部署成本高,需专业云厂商支持
    • 用户通过API调用,使用成本低廉
  • 代表产品:通义千问、文心一言、豆包SEED模型、Kimi等
  • 发展趋势:最终主要由头部科技公司留存

2. 端侧大模型

  • 部署位置:手机、PC、汽车等终端设备
  • 特点:
    • 参数量相对较小(20B-40G级别)
    • 本地化部署策略
    • 典型代表:GPT-Toss 20B模型
  • 技术突破:
    • 蒸馏技术使小模型具备接近大模型的能力
    • 30B模型与600B模型在部分场景差异不明显

二、大模型训练的几个阶段

1. 预训练阶段

  • 产出:Base模型(基础语言模型)
  • 数据需求:千亿级单词的原始文本(图书、百科、网页等)
  • 训练原理:
    • 采用自监督学习,原始文本即标注数据
    • 通过mask预测下一个token(如输入"本报"预测"讯")
    • 学习文本序列的概率分布关系
  • 资源消耗:1000+GPU,月级别训练时间

1)例题:百度新闻大模型训练

  • 训练过程:
    • 将新闻文本切分后输入模型
    • 模型学习"本报讯"等固定表达的概率关系
    • 通过预测准确率优化损失函数
  • 技术局限:本质仍是概率模型,存在生成随机性

2. 有监督微调阶段

  • 输入:Base模型 + 标注指令数据(数万用户指令)
  • 产出:Instruct/Chat模型(如ModelScope上的各类Chat模型)
  • 作用:
    • 使模型具备任务执行能力(意图识别、情感分类等)
    • 类比:在学会拼音基础上培养阅读理解能力
  • 资源需求:1-100GPU,天级别训练时间

3. 强化学习阶段

  • 目标:人类偏好对齐
  • 主要方法:
    • PPO算法(OpenAI提出):
      • 训练奖励模型(RM)对输出评分
      • 引导模型参数向高分方向优化
    • 新兴方法(如DPO):
      • 不依赖独立奖励模型
      • 隐式学习人类偏好
  • 效果:
    • 确保回复礼貌得体(避免辱骂等不良输出)
    • 使模型行为符合社会伦理规范
  • 资源需求:1-100GPU,天级别训练时间

4. 微调阶段

  • 定位:垂直领域适配(企业级应用重点)
  • 优势:
    • 基于大厂基模(如GPT-Toss 20B)二次开发
    • 少量领域数据即可获得显著效果提升
  • 实践意义:
    • 98%企业的实际接触层面
    • 资源需求远低于前三阶段(典型需求:单卡GPU)

三、大模型微调价值与应用价值

1. 微调可实现

  • 知识灌注:通过微调将特定领域知识(如旅游行业术语)注入模型参数,使模型输出更符合领域特点。例如微调旅游数据集后,模型能基于专业知识回答相关问题,避免"跑偏"回答。
  • 任务适配:调整模型输出格式以适应特定任务需求。典型案例是将自然语言输出改为分类标签输出(如情绪识别中的"开心/沮丧/悲伤/愤怒"标签),这是效果最好的微调类型之一。
  • 能力纠偏:通过数据配比调整改善模型能力不平衡问题。例如用80%数学题+20%其他领域数据微调,可显著提升模型数学解题能力。
  • 降低尺寸:通过微调小型模型(如1.5B参数模型)使其性能接近大模型,降低部署成本,特别适合VR眼镜等资源受限设备。
  • 减少幻觉:针对垂直领域(如医疗)进行增量训练,可减少该领域的错误输出。但无法完全根除,因幻觉本质是训练数据概率分布问题。
  • 强化Agent能力:通过复杂数据集训练提升工具调用能力,包括并行/串行调用决策。但数据集构建难度极高,需包含工具选择、调用顺序等完整逻辑。

2. 微调无法实现

  • 突破参数上限:无法让弱模型(如1.5B)具备大模型(如675B)的能力,模型性能受参数量硬性限制。
  • 改变基础架构:无法解决预训练模型的固有缺陷,如原本不具备工具调用能力的模型通过微调也无法获得该能力。
  • 实时更新:无法获取训练时点后的新信息,需依赖外部检索等补充手段。模型版本迭代周期通常需数月(如GPT系列)。
  • 根除幻觉:因本质是概率模型特性,当遇到训练数据中低频组合时仍可能产生错误输出。例如医疗术语在政治语境下的误用。
  • 个性化适配:无法实时响应用户偏好的动态变化,微调结果是静态的参数更新。
  • 能力突变:无法让基础能力缺失的模型突然获得全新能力,微调仅能做"锦上添花"的优化。

四、知识小结

知识点

核心内容

考试重点/易混淆点

难度系数

大模型分类

分为云测大模型(如阿里云、腾讯云部署的接口模型)和端测大模型(如通义千问、文心一言、豆包等)

云测大模型参数量大、部署成本高;端测大模型参数量较小,本地化部署

⭐⭐

大模型训练阶段

1. 预训练阶段:学习文本概率关系(如输入“本报”预测“讯”)

2. 有监督微调(SFT):适配下游任务(如意图识别)

3. 强化学习(RLHF):对齐人类偏好(如避免骂人)

预训练无需标注数据;强化学习依赖奖励模型或隐式奖励(如DPO)

⭐⭐⭐⭐

微调的价值

1. 知识灌注(如旅游领域适配)

2. 任务适配(如意图分类标签输出)

3. 能力纠偏(如提升数学能力)

4. 降低部署成本(小模型强化)

微调无法突破基座模型能力上限(如1.5B模型无法达到675B效果)

⭐⭐⭐

Agent能力

通过微调提升工具调用能力,但数据集构建复杂(需涵盖并行/串行调用逻辑)

开源项目较少因数据集难构建

⭐⭐⭐⭐

模型幻觉

因概率式输出本质导致,微调可缓解但无法根除(如医疗术语误用于政治领域)

依赖外部知识库补充实时信息

⭐⭐⭐

http://www.jsqmd.com/news/684374/

相关文章:

  • 运维福音!用 QClaw 搭建服务器监控系统,异常自动推送到微信
  • PrivacySentry安全部署指南:线上环境的最佳配置策略
  • Z-Image-Turbo_UI界面生成效果实测:看看AI能画出多美的图片
  • 04-08-06 管理多个团队 (Managing Multiple Teams)
  • WebStack网址管理完全教程:如何高效添加和分类网站链接
  • RV1126视频采集避坑指南:RKMedia VI模块的5个关键配置项详解
  • csp信奥赛C++高频考点专项训练之贪心算法 --【排序贪心】:魔法
  • hot100 114.二叉树展开为链表
  • 软考架构师【第十一章】未来信息综合技术
  • 忍者像素绘卷多场景落地:电竞战队像素风应援物智能生成系统
  • 如何在 Firebase Storage 中批量获取所有媒体文件的下载链接
  • 从 Hello World 到消息队列:用 ZeroMQ 和 C++ 在 Ubuntu 上快速搭建你的第一个分布式应用原型
  • 给您的“空中哨兵”做个大保养!大疆机场2年度保养指南请收好
  • 为什么92%的.NET开发者在AI推理中误用ThreadPool?——.NET 11新引入ParallelForAsync与AI Pipeline调度深度解析
  • Web 前端工程师面试题 + 参考答案
  • ArcMap处理不规则遥感影像:从按掩膜提取到镶嵌,手把手教你搞定行政区划裁剪与拼接
  • 2.大模型微调难点与挑战
  • 用Python+Floyd算法复刻2000年数模B题:从钢管运输到物流成本最优化的实战解析
  • FLUX.1-dev-fp8-dit文生图惊艳案例分享:FP8模型生成的中国风/赛博朋克/蒸汽波风格图
  • 前端开发者构建AI应用实战指南
  • 《JAVA面经实录》- 权限管理框面试题
  • 如何用AutoLegalityMod插件3分钟生成100%合法的宝可梦数据
  • 【Excel提效 No.011】一句话搞定多工作表纵向合并
  • Layui表格怎么实现在表头的右侧添加一个自定义配置图标
  • 支付机构必看:网联平台RCMP前置系统实战解析,从映射额度到结算的完整避坑指南
  • Python与OpenAI API实战:快速构建AI对话服务
  • 2026届学术党必备的六大AI学术神器解析与推荐
  • 算法训练营第七天 | 环形链表 扭捏快指针步步退,霸道慢指针狠狠追
  • Peer-Link断了怎么办?一次生产环境M-LAG故障排查与恢复实录
  • Layui如何实现表格内部的图片点击后进入相册轮播模式