大语言模型(LLM)分类详解
本文系统梳理大语言模型的多维分类体系,涵盖架构、训练范式、规模、应用定位、技术特性及开源/闭源等维度,并附典型模型实例。
一、按基础架构分类
大语言模型的底层神经网络架构决定了其信息处理方式和适用场景。
| 类型 | 核心特点 | 工作原理 | 适用任务 | 代表模型 |
|---|---|---|---|---|
| Encoder-only(仅编码器) | 双向注意力机制,同时关注上下文两侧信息 | 通过掩码语言建模(MLM)理解文本 | 文本分类、情感分析、命名实体识别、语义相似度计算 | BERT(Google, 2018)、RoBERTa(Meta, 2019)、ERNIE(百度, 2019) |
| Decoder-only(仅解码器) | 自回归生成,从左到右逐token预测 | 基于前文预测下一个词,适合开放式生成 | 文本生成、对话系统、代码生成、创意写作 | GPT-4(OpenAI, 2023)、LLaMA-3(Meta, 2024)、Claude 3(Anthropic, 2024)、Qwen2(阿里, 2024) |
| Encoder-Decoder(编码器-解码器) | 编码器理解输入,解码器生成输出 | 序列到序列(Seq2Seq)映射 | 机器翻译、文本摘要、问答系统 | T5(Google, 2019)、BART(Meta, 2019)、GLM(清华&智谱, 2022) |
趋势说明:当前大模型领域以Decoder-only架构为主流。GPT系列的成功验证了自回归生成在通用人工智能中的潜力,使其成为绝大多数大模型的标准选择。
二、按训练范式/目标分类
模型在不同阶段的训练目标决定了其能力边界和使用方式。
| 类型 | 训练阶段 | 核心方法 | 能力特点 | 典型代表 |
|---|---|---|---|---|
| 基础预训练模型 | 第一阶段:无监督预训练 | 在大规模无标注文本上进行自监督学习(如 next-token prediction) | 具备通用语言理解和生成能力,但缺乏指令遵循能力 | GPT-3(175B, OpenAI, 2020)、LLaMA-2(7B/13B/70B, Meta, 2023)、Baichuan-2(百川智能, 2023) |
| 指令微调模型(Instruction-tuned) | 第二阶段:有监督微调(SFT) | 使用指令-响应对数据进行微调,学习遵循人类指令 | 能够理解并执行具体指令,如"翻译这段话"、"总结文章" | Alpaca(斯坦福, 2023, 基于LLaMA-7B)、Vicuna(LMSYS, 2023, 基于LLaMA-13B)、ChatGLM-6B(清华&智谱, 2023) |
| 对齐模型(Alignment) | 第三阶段:人类偏好对齐 | 通过RLHF(人类反馈强化学习)或RLAIF(AI反馈强化学习)优化 | 输出更安全、有用、符合人类价值观,减少有害内容 | ChatGPT(OpenAI, 2022)、Claude 3 Opus(Anthropic, 2024)、GPT-4 Turbo(OpenAI, 2024) |
| 多模态模型 | 跨模态预训练 | 融合文本、图像、音频、视频等多模态数据进行联合训练 | 具备跨模态理解和生成能力,如看图说话、视频分析 | GPT-4V(OpenAI, 2023, 图像理解)、Gemini 1.5 Pro(Google, 2024, 视频+图像+文本)、Qwen-VL(阿里, 2023, 视觉语言)、LLaVA(UC伯克利, 2023, 视觉指令微调) |
训练流程示意:基础预训练 → 指令微调(SFT) → 人类偏好对齐(RLHF)
三、按模型规模/参数分类
参数量是衡量模型容量的重要指标,直接影响模型能力和部署成本。
| 规模级别 | 参数量级 | 典型模型 | 特点 | 部署场景 |
|---|---|---|---|---|
| 小型模型 | < 10B(100亿) | Phi-3-mini(3.8B, Microsoft, 2024)、Gemma-2B(Google, 2024)、Qwen2-1.5B(阿里, 2024) | 轻量高效,推理速度快,资源占用低 | 手机端侧、IoT设备、边缘计算、嵌入式系统 |
| 中型模型 | 10B ~ 70B(100亿~700亿) | LLaMA-2-13B(Meta, 2023)、Mistral-7B(Mistral AI, 2023)、Baichuan-2-13B(百川, 2023)、ChatGLM3-6B(智谱, 2023) | 性能与成本的最佳平衡点,开源社区主流 | 个人服务器、中小企业私有化部署、科研实验 |
| 大型模型 | 70B ~ 100B+(700亿~1000亿+) | LLaMA-2-70B(Meta, 2023)、Qwen-72B(阿里, 2023)、Mixtral 8x7B(Mistral AI, 2023, MoE架构) | 能力强劲,接近顶级闭源模型,需专业硬件支持 | 企业级数据中心、云计算平台、高性能计算集群 |
| 超大规模模型 | 100B+ ~ 万亿级(1000亿+) | GPT-4(据传1.8T, MoE架构, OpenAI, 2023)、GPT-3(175B, OpenAI, 2020)、PaLM-2(540B, Google, 2023) | 顶尖性能,涌现能力强,训练和推理成本极高 | 仅少数头部AI公司/研究机构具备训练和部署能力 |
注:MoE(Mixture of Experts)架构可以在总参数量很大的情况下,通过稀疏激活控制实际推理参数量,如GPT-4据传采用8×220B的MoE结构。
四、按应用定位分类
不同模型针对特定场景进行了优化,形成了专业化的模型矩阵。
| 类型 | 定位说明 | 核心能力 | 代表模型 | 应用示例 |
|---|---|---|---|---|
| 通用基座模型 | 面向广泛任务的通用人工智能 | 知识问答、文本生成、逻辑推理、多轮对话 | GPT-4o(OpenAI, 2024)、Claude 3.5 Sonnet(Anthropic, 2024)、通义千问2.5(阿里, 2024)、文心一言4.0(百度, 2024) | 智能客服、内容创作、教育辅导、个人助手 |
| 代码专用模型 | 针对代码理解和生成优化 | 代码补全、Bug修复、代码解释、多语言编程 | GitHub Copilot(基于Codex, OpenAI, 2021)、CodeLlama-70B(Meta, 2023)、DeepSeek-Coder-V2(DeepSeek, 2024)、StarCoder2(HuggingFace, 2024) | IDE插件、自动化编程、代码审查、技术文档生成 |
| 垂直领域模型 | 针对特定行业知识深度优化 | 领域专业知识问答、合规审查、专业文档生成 | LawGPT(法律, 2023)、Med-PaLM 2(医疗, Google, 2023)、BloombergGPT(金融, 2023, 50B)、FinGPT(金融开源, 2023) | 法律咨询、医疗诊断辅助、金融研报分析、合规风控 |
| 多语言/中文优化模型 | 针对中文语料和文化语境优化 | 中文语义理解、古诗词生成、中文逻辑推理、中国文化知识 | 文心一言(百度, 2023)、通义千问(阿里, 2023)、ChatGLM-4(智谱, 2024)、Baichuan-3(百川, 2024) | 中文内容创作、中文客服、中文教育、文化传播 |
| 数学/科学推理模型 | 强化数学计算和科学推理能力 | 数学证明、公式推导、物理问题求解、科学问答 | DeepSeek-Math(DeepSeek, 2024)、Qwen2-Math(阿里, 2024)、Minerva(Google, 2022) | 数学辅导、科研辅助、工程计算、竞赛培训 |
五、按技术特性分类
技术架构的创新推动了大模型效率和能力的突破。
| 类型 | 技术特点 | 工作原理 | 优势 | 代表模型 |
|---|---|---|---|---|
| 稠密模型(Dense) | 所有参数在每次前向传播中全部激活 | 传统的Transformer架构,每个层都参与计算 | 架构简单,训练稳定,易于理解和调试 | GPT-3(175B)、LLaMA-2-70B(Meta, 2023)、Qwen-72B(阿里, 2023) |
| 稀疏/MoE模型(Mixture of Experts) | 每次推理只激活部分专家网络参数 | 将大模型拆分为多个"专家"子网络,通过门控网络动态选择激活哪些专家 | 总参数量巨大但推理成本低,扩展性强,性能优异 | GPT-4(据传8×220B MoE, OpenAI, 2023)、Mixtral 8x7B(8个专家各7B, Mistral AI, 2023)、Mixtral 8x22B(Mistral AI, 2024)、DeepSeek-V2(236B总参数, 21B激活, DeepSeek, 2024) |
| 长上下文模型 | 支持超长文本输入窗口(远超传统4K/8K限制) | 改进位置编码(如RoPE、ALiBi)、优化注意力机制(如Ring Attention、Sparse Attention) | 可处理整本书、长视频、大量代码库、复杂多轮对话 | Gemini 1.5 Pro(1M tokens, Google, 2024)、Kimi(200K tokens, 月之暗面, 2024)、GLM-4-9B-1M(1M tokens, 智谱, 2024)、Claude 3(200K tokens, Anthropic, 2024) |
| 检索增强模型(RAG-native) | 原生集成外部知识检索能力 | 在推理时动态检索外部知识库,结合生成模型输出 | 减少幻觉,知识可实时更新,可解释性强 | RAGFlow(开源RAG引擎, 2024)、Dify(开源LLM应用平台, 2024)、Perplexity AI(对话式搜索引擎, 2024) |
六、按开源/闭源分类
开源与闭源之争是当前大模型生态的核心议题之一。
| 类型 | 特点 | 商业模式 | 优势 | 劣势 | 代表模型 |
|---|---|---|---|---|---|
| 闭源商业模型 | 模型权重不公开,仅通过API提供服务 | API按量计费、企业订阅授权 | 性能顶尖、持续迭代、安全可控、无需运维 | 成本高、数据隐私风险、无法定制化、依赖供应商 | GPT-4/GPT-4o(OpenAI)、Claude 3(Anthropic)、Gemini 1.5(Google)、文心一言(百度)、通义千问(阿里) |
| 开源/开放权重模型 | 模型权重公开,可自由下载和二次开发 | 开源免费+商业技术支持、云服务托管 | 可本地部署、数据隐私、可定制化、社区生态活跃 | 性能通常略逊于顶级闭源模型、需要自行运维、安全责任自负 | LLaMA-3(Meta, 2024)、Mistral-7B/8x22B(Mistral AI)、Qwen2(阿里, 2024)、Baichuan-2(百川)、DeepSeek-V2(DeepSeek, 2024)、ChatGLM-4(智谱, 2024) |
| 半开放模型 | 权重有限开放,需申请或签署协议 | 研究免费+商业授权 | 平衡开放性与商业利益 | 使用受限,合规复杂 | LLaMA-2(Meta, 需申请商业授权)、Gemma(Google, 有限开放) |
七、综合对比表
| 模型名称 | 架构 | 参数量 | 训练范式 | 开源/闭源 | 特色定位 | 发布机构 | 发布时间 |
|---|---|---|---|---|---|---|---|
| GPT-4 | Decoder-only (MoE) | ~1.8T (8×220B) | 预训练+SFT+RLHF | 闭源 | 通用最强基座 | OpenAI | 2023.03 |
| GPT-4o | Decoder-only (MoE) | ~1.8T | 预训练+SFT+RLHF | 闭源 | 原生多模态、实时交互 | OpenAI | 2024.05 |
| Claude 3.5 Sonnet | Decoder-only | 未公开 | 预训练+SFT+RLHF | 闭源 | 超长上下文、安全性高 | Anthropic | 2024.06 |
| Gemini 1.5 Pro | Decoder-only | 未公开 | 预训练+多模态SFT | 闭源 | 1M+ tokens超长上下文 | 2024.02 | |
| LLaMA-3-70B | Decoder-only (Dense) | 70B | 预训练+SFT | 半开放 | 开源最强稠密模型 | Meta | 2024.04 |
| Mixtral 8x22B | Decoder-only (MoE) | 176B (39B激活) | 预训练+SFT | 开源 | 开源MoE标杆 | Mistral AI | 2024.04 |
| Qwen2-72B | Decoder-only (Dense) | 72B | 预训练+SFT+RLHF | 开源 | 中文开源最强基座 | 阿里巴巴 | 2024.06 |
| DeepSeek-V2 | Decoder-only (MoE) | 236B (21B激活) | 预训练+SFT+RLHF | 开源 | 极致性价比MoE | DeepSeek | 2024.05 |
| Kimi | Decoder-only | 未公开 | 预训练+SFT+RLHF | 闭源 | 200K超长上下文、中文优化 | 月之暗面 | 2023.10 |
| ChatGLM-4 | GLM (Encoder-Decoder) | 未公开 | 预训练+SFT+RLHF | 半开放 | 中英双语、学术背景强 | 智谱AI | 2024.01 |
| Phi-3-mini | Decoder-only (Dense) | 3.8B | 预训练+SFT | 开源 | 小模型大能力 | Microsoft | 2024.04 |
| CodeLlama-70B | Decoder-only (Dense) | 70B | 预训练+代码SFT | 开源 | 代码生成专用 | Meta | 2023.08 |
| DeepSeek-Coder-V2 | Decoder-only (MoE) | 236B | 预训练+代码SFT | 开源 | 开源最强代码模型 | DeepSeek | 2024.06 |
| Med-PaLM 2 | Decoder-only | 540B | 预训练+医疗SFT | 闭源 | 医疗问答专家 | 2023.05 |
八、当前发展趋势总结
Decoder-only 架构持续主导:自回归生成已成为通用大模型的标准范式,Encoder-only和Encoder-Decoder架构主要应用于特定场景。
MoE架构成为新趋势:通过稀疏激活实现"大模型能力、小模型成本",GPT-4、Mixtral、DeepSeek-V2等验证了MoE的可行性。
多模态融合加速:文本、图像、音频、视频的统一建模成为下一代模型的标配,GPT-4o和Gemini 1.5是典型代表。
端侧小型化突破:Phi-3、Gemma-2B等小型模型在保持较高性能的同时实现手机/IoT部署,推动AI普惠化。
长上下文竞赛:上下文窗口从4K扩展到1M+ tokens,使模型能够处理整本书、长视频、大型代码库。
领域专业化深化:基座模型+领域微调(如法律、医疗、金融)成为行业落地的主流模式,降低幻觉风险,提升专业准确性。
开源生态繁荣:LLaMA、Qwen、DeepSeek等开源模型快速追赶闭源模型,推动技术民主化和应用创新。
