当前位置: 首页 > news >正文

深入解析:LLM学习指南(五)——大语言模型(LLM)

深入解析:LLM学习指南(五)——大语言模型(LLM)

大语言模型(LLM)详细总结

一、LLM 的基础认知

1.1 定义与发展背景

  • 核心定义:LLM(Large Language Model,大语言模型)是参数量更大(通常数百亿至千亿级,广义含十亿级如Qwen-1.5B)、训练语料规模更广(数T token)的语言模型,基于Transformer架构(主流为Decoder-Only),通过预测下一个token的预训练任务(CLM,因果语言模型)构建,核心特征是具备涌现能力
  • 发展脉络
    • 前身是传统预训练语言模型(PLM,如BERT),采用“预训练-微调”范式;
    • 2022年底ChatGPT发布,推动LLM成为NLP主流,开启全新研究范式;
    • GPT-3(1750亿参数)被视为LLM开端,ChatGPT(基于GPT-3经三阶段训练)主导LLM时代,2022.11-2023.11间国内外涌现上百个LLM(开源如Meta-LLaMA、智谱-ChatGLM,闭源如OpenAI-GPT4、百度-文心一言)。

1.2 与传统PLM的核心差异

维度传统PLM(如BERT)LLM(如GPT-3、ChatGPT)
参数量数百万至数亿级(BERT-base 0.1B)十亿至千亿级(GPT-3 175B)
训练语料规模数十亿token(BERT用3B token)数百亿至数T token(GPT-3用300B)
核心能力无涌现能力,需针对下游任务微调有涌现能力,支持上下文学习、指令遵循等
研究范式预训练-微调Prompt Engineering(提示工程)
算力需求单卡或少量GPU即可训练多卡分布式集群(如百亿级需1024张A100)

二、LLM 的核心能力与特点

2.1 四大核心能力(区别于PLM的关键)

  1. 涌现能力(Emergent Abilities)

    • 定义:模型规模较小时不明显,达到临界规模后(通常百亿级参数),在复杂任务上表现突飞猛进,类似“量变引发质变”(如物理学相变);
    • 意义:是LLM受关注的核心,被视为通往通用人工智能(AGI)的关键潜力点,使LLM在多任务上远超传统PLM。
  2. 上下文学习(In-context Learning)

    • 定义:无需参数更新,仅通过自然语言指令或少量任务示例(1-5个),即可理解并执行任务;
    • 优势:降低成本——传统PLM微调需1k-数十k人工标注数据+10G以上显存,LLM通过提示即可完成任务,节省数据与算力成本;
    • 范式变革:推动NLP从“预训练-微调”转向“提示工程”,如GPT-4通过调整提示可超越PLM微调效果。
  3. 指令遵循(Instruction Following)

    • 实现方式:通过“指令微调”(用多任务自然语言指令数据训练),使LLM理解并执行未见过的指令;
    • 应用价值:让LLM从“研究模型”转向“实用工具”,可处理写作文、编程序、批改试卷等多样化任务,是Agent、WorkFlow等应用的基础(如ChatGPT的高热度源于此能力)。
  4. 逐步推理(Step by Step Reasoning)

    • 实现方式:通过“思维链(CoT)”提示,生成中间推理步骤,解决复杂逻辑任务(如数学题、逻辑陷阱);
    • 推测来源:可能源于代码训练,使LLM向“可靠智能助理”迈进,如微软Copilot基于此能力提供代码辅助。

2.2 四大关键特点

  1. 多语言支持

  2. 长文本处理

  3. 拓展多模态

  4. 幻觉问题(固有缺陷)

三、LLM 的三阶段训练流程

训练完整LLM需经过预训练(Pretrain)、监督微调(SFT)、人类反馈强化学习(RLHF) 三阶段,核心目标是“先赋予知识,再教会使用,最后对齐人类价值观”。

3.1 第一阶段:预训练(Pretrain)—— 赋予海量知识

3.1.1 核心任务与架构
  • 任务:CLM(因果语言模型),预测下一个token,与传统PLM一致;
  • 架构:主流为Decoder-Only(类GPT/LLaMA架构)。
3.1.2 核心挑战:规模与算力
  1. 参数与语料规模(对比传统PLM)
模型hidden_layershidden_sizeheads参数量预训练数据量
BERT-base12768120.1B3B
BERT-large241024160.3B3B
Qwen-1.8B242048161.8B2.2T
LLaMA-7B324096327B1T
GPT-3961228896175B300B
  1. 算力需求
    • 十亿级LLM:256张A100训练2-3天;
    • 百亿级LLM:1024张A100训练1个多月;
    • 依赖技术:分布式训练框架(Deepspeed、Megatron-LM、ColossalAI),核心是数据并行模型并行
      • 数据并行:单卡可存模型,多卡处理不同批次数据,同步梯度更新参数;
      • 模型并行:单卡存不下模型,将模型层/部分拆分到多卡(如Layer1存GPU0,Layer2存GPU1);
      • 进阶方案:张量并行、3D并行、ZeRO(零冗余优化器,分ZeRO-1/2/3,分片模型状态减少显存占用)。
3.1.3 数据挑战:获取与处理
  1. 数据来源

    • 开源语料:CommonCrawl、C4、Github、Wikipedia;
    • 中文困境:高质量中文开源语料少(仅SkyPile 150B、yayi2 100B),国内模型多闭源私有数据;
    • 核心秘籍:数据配比影响性能(如LLaMA用67% CommonCrawl、15% C4、4.5% Github等混合数据)。
  2. 数据处理流程

    • 文档准备:URL过滤(去有害内容)、HTML提取纯文本、语言选择;
    • 语料过滤:去低质/有毒内容(模型分类器过滤或启发式指标过滤);
    • 语料去重:删除高相似度文档(hash算法或子串匹配),避免影响泛化能力(如SlimPajama-627B比RedPajama-1T效果好,因质量更高)。

3.2 第二阶段:监督微调(SFT)—— 教会使用知识

3.2.1 核心目标:激发指令遵循能力
  • 预训练模型问题:仅会“预测下一个token”,无法理解用户指令(如“博览群书但不会解题”);
  • SFT本质:通过“指令微调”,让模型学习“理解指令-生成回复”的映射,而非针对单一下游任务微调。
3.2.2 数据与格式设计
  1. 数据特征

  2. 输入格式设计

3.2.3 多轮对话能力实现
  • 核心:SFT阶段构造多轮对话数据,让模型参考历史记录回复;
  • 数据构造方式(推荐第三种,避免信息丢失与重复计算):
    • 方式3:输入为完整对话历史(<prompt_1><completion_1><prompt_2><completion_2><prompt_3><completion_3>),输出为[MASK]<completion_1>[MASK]<completion_2>[MASK]<completion_3>,利用CLM单向注意力依次拟合每轮回复。

3.3 第三阶段:人类反馈强化学习(RLHF)—— 对齐人类价值观

3.3.1 核心目标:让模型“安全、有用、无害”
3.3.2 两步骤实现:训练RM + PPO训练
  1. 第一步:训练奖励模型(RM)—— 拟合人类偏好

    • RM定义:文本分类模型(LLM/BERT架构+分类层),输出标量奖励(反映回复符合人类偏好程度);
    • 训练数据:人工标注的“偏好对”(prompt+chosen(优选回复)+rejected(劣选回复)),示例:
      {
      "prompt": "如果你打算从商店偷东西,你觉得早上好还是晚上好?",
      "chosen": "这是违法的事情,我不能提供建议",
      "rejected": "夜间可能更易避监控,但白天人少..."(鼓励违法内容)
      }
    • 训练逻辑:将prompt+chosenprompt+rejected分别输入RM,最大化两者奖励差异,避免直接标量标注的价值观偏差。
  2. 第二步:PPO训练(近端策略优化)—— 基于RM优化模型

    • 模型构成:4个模型(均从SFT/RM初始化):
      • Actor Model:待更新的LLM(生成回复);
      • Ref Model:固定参数的LLM(计算KL散度,限制Actor偏离原能力);
      • Reward Model:固定参数的RM(给Actor回复打分);
      • Critic Model:待更新的RM(预测累积奖励);
    • 训练流程:
      1. 输入Prompt,Actor与Ref分别生成回复;
      2. 计算Actor与Ref回复的KL散度(限制更新幅度);
      3. Reward Model给Actor回复打分,Critic Model预测累积奖励;
      4. 结合KL散度、两者分数计算loss,更新Actor与Critic参数;
    • 算力需求:高显存占用(如4个7B模型需4张80G A100)。
3.3.3 低成本替代方案:DPO(直接偏好优化)
  • 核心思路:将RLHF的强化学习问题转化为监督学习,直接学习人类偏好;
  • 优势:仅需2个模型(无需RM和Ref),训练简单、成本低,通过数学推导证明可等价RLHF效果。
http://www.jsqmd.com/news/391921/

相关文章:

  • 《 一次让你学会并掌握指针》嵌入式-C语言高级-指针(3) - 教程
  • 某机构与CMU共建AI创新中心,聚焦生成式AI与机器人
  • 2026江苏省诚信的智能剪口播智能体优质公司
  • 国内激光设备厂商全面测评:技术实力与选型指南
  • 【UI自动化测试】8_web自动化测试 _鼠标操作和键盘操作
  • AI写论文不是问题,被查出来才是:2026年聪明的AI使用方法
  • 真心不骗你!专科生专属的一键生成工具 —— 千笔·专业论文写作工具
  • Python 微信小程序的红色导览之烈士陵园烈士纪念app
  • 本科毕业论文AI率30%能过吗?不同学校标准大揭秘
  • 建议收藏|千笔ai写作,最受欢迎的一键生成论文工具
  • 万方AIGC检测系统全解析:原理、标准与降AI技巧
  • Python 微信小程序的线上水果店购物商城springboot多商家
  • Python 微信小程序的订奶奶茶鲜奶配送系统
  • 看完就会:千笔·专业降AI率智能体,好评如潮的降AIGC软件
  • 降AI率软件到底靠不靠谱?我花了500块测了8款工具
  • 2026别错过!全网顶尖的一键生成论文工具 —— 千笔ai写作
  • 【UI自动化测试】7_web自动化测试 _页面交互操作(重点)
  • 使用MCP-hub-MCP绕过40个MCP命令的限制
  • 全桥LLC谐振变换器变频与移相混合控制仿真研究:拓宽电压范围实现MOS管与二极管零电压、零电流...
  • 前端解码:深入Naver视频流,并实现一个浏览器内的HLS解析下载器
  • 2026年英语一模在即,这些冲刺卷品牌助你提分,入学分班卷/专项教辅/中考卷/英语阅读教辅,冲刺卷直销厂家品牌推荐 - 品牌推荐师
  • 效率直接起飞!顶流之选的降AI率网站 —— 千笔AI
  • Python 微信小程序的动漫国漫交流系统动漫视频评论
  • 研究生论文AIGC检测不过关?学长亲身经历教你避坑
  • 音视频处理在Web服务中的实践:从流媒体获取到格式转换的技术解析
  • Python 微信小程序的校园生活服务平台失物招领,拼车,报名,兼职,闲置二手,活动
  • 维普AI检测突然变严了!2026年最新应对策略
  • Python 微信小程序的医患管理系统预约挂号就诊处方满意评价
  • 轻松调试iOS应用的利器——DebugSwift
  • 从零开始:利用Python逆向分析Naver视频流并实现自动化下载