当前位置：首页 > news >正文

大语言模型（LLM）分类详解

news 2026/6/26 2:52:21

本文系统梳理大语言模型的多维分类体系，涵盖架构、训练范式、规模、应用定位、技术特性及开源/闭源等维度，并附典型模型实例。

一、按基础架构分类

大语言模型的底层神经网络架构决定了其信息处理方式和适用场景。

类型	核心特点	工作原理	适用任务	代表模型
Encoder-only（仅编码器）	双向注意力机制，同时关注上下文两侧信息	通过掩码语言建模（MLM）理解文本	文本分类、情感分析、命名实体识别、语义相似度计算	BERT（Google, 2018）、RoBERTa（Meta, 2019）、ERNIE（百度, 2019）
Decoder-only（仅解码器）	自回归生成，从左到右逐token预测	基于前文预测下一个词，适合开放式生成	文本生成、对话系统、代码生成、创意写作	GPT-4（OpenAI, 2023）、LLaMA-3（Meta, 2024）、Claude 3（Anthropic, 2024）、Qwen2（阿里, 2024）
Encoder-Decoder（编码器-解码器）	编码器理解输入，解码器生成输出	序列到序列（Seq2Seq）映射	机器翻译、文本摘要、问答系统	T5（Google, 2019）、BART（Meta, 2019）、GLM（清华&智谱, 2022）

趋势说明：当前大模型领域以Decoder-only架构为主流。GPT系列的成功验证了自回归生成在通用人工智能中的潜力，使其成为绝大多数大模型的标准选择。

二、按训练范式/目标分类

模型在不同阶段的训练目标决定了其能力边界和使用方式。

类型	训练阶段	核心方法	能力特点	典型代表
基础预训练模型	第一阶段：无监督预训练	在大规模无标注文本上进行自监督学习（如 next-token prediction）	具备通用语言理解和生成能力，但缺乏指令遵循能力	GPT-3（175B, OpenAI, 2020）、LLaMA-2（7B/13B/70B, Meta, 2023）、Baichuan-2（百川智能, 2023）
指令微调模型（Instruction-tuned）	第二阶段：有监督微调（SFT）	使用指令-响应对数据进行微调，学习遵循人类指令	能够理解并执行具体指令，如"翻译这段话"、"总结文章"	Alpaca（斯坦福, 2023, 基于LLaMA-7B）、Vicuna（LMSYS, 2023, 基于LLaMA-13B）、ChatGLM-6B（清华&智谱, 2023）
对齐模型（Alignment）	第三阶段：人类偏好对齐	通过RLHF（人类反馈强化学习）或RLAIF（AI反馈强化学习）优化	输出更安全、有用、符合人类价值观，减少有害内容	ChatGPT（OpenAI, 2022）、Claude 3 Opus（Anthropic, 2024）、GPT-4 Turbo（OpenAI, 2024）
多模态模型	跨模态预训练	融合文本、图像、音频、视频等多模态数据进行联合训练	具备跨模态理解和生成能力，如看图说话、视频分析	GPT-4V（OpenAI, 2023, 图像理解）、Gemini 1.5 Pro（Google, 2024, 视频+图像+文本）、Qwen-VL（阿里, 2023, 视觉语言）、LLaVA（UC伯克利, 2023, 视觉指令微调）

训练流程示意：基础预训练 → 指令微调（SFT） → 人类偏好对齐（RLHF）

三、按模型规模/参数分类

参数量是衡量模型容量的重要指标，直接影响模型能力和部署成本。

规模级别	参数量级	典型模型	特点	部署场景
小型模型	< 10B（100亿）	Phi-3-mini（3.8B, Microsoft, 2024）、Gemma-2B（Google, 2024）、Qwen2-1.5B（阿里, 2024）	轻量高效，推理速度快，资源占用低	手机端侧、IoT设备、边缘计算、嵌入式系统
中型模型	10B ~ 70B（100亿~700亿）	LLaMA-2-13B（Meta, 2023）、Mistral-7B（Mistral AI, 2023）、Baichuan-2-13B（百川, 2023）、ChatGLM3-6B（智谱, 2023）	性能与成本的最佳平衡点，开源社区主流	个人服务器、中小企业私有化部署、科研实验
大型模型	70B ~ 100B+（700亿~1000亿+）	LLaMA-2-70B（Meta, 2023）、Qwen-72B（阿里, 2023）、Mixtral 8x7B（Mistral AI, 2023, MoE架构）	能力强劲，接近顶级闭源模型，需专业硬件支持	企业级数据中心、云计算平台、高性能计算集群
超大规模模型	100B+ ~ 万亿级（1000亿+）	GPT-4（据传1.8T, MoE架构, OpenAI, 2023）、GPT-3（175B, OpenAI, 2020）、PaLM-2（540B, Google, 2023）	顶尖性能，涌现能力强，训练和推理成本极高	仅少数头部AI公司/研究机构具备训练和部署能力

注：MoE（Mixture of Experts）架构可以在总参数量很大的情况下，通过稀疏激活控制实际推理参数量，如GPT-4据传采用8×220B的MoE结构。

四、按应用定位分类

不同模型针对特定场景进行了优化，形成了专业化的模型矩阵。

类型	定位说明	核心能力	代表模型	应用示例
通用基座模型	面向广泛任务的通用人工智能	知识问答、文本生成、逻辑推理、多轮对话	GPT-4o（OpenAI, 2024）、Claude 3.5 Sonnet（Anthropic, 2024）、通义千问2.5（阿里, 2024）、文心一言4.0（百度, 2024）	智能客服、内容创作、教育辅导、个人助手
代码专用模型	针对代码理解和生成优化	代码补全、Bug修复、代码解释、多语言编程	GitHub Copilot（基于Codex, OpenAI, 2021）、CodeLlama-70B（Meta, 2023）、DeepSeek-Coder-V2（DeepSeek, 2024）、StarCoder2（HuggingFace, 2024）	IDE插件、自动化编程、代码审查、技术文档生成
垂直领域模型	针对特定行业知识深度优化	领域专业知识问答、合规审查、专业文档生成	LawGPT（法律, 2023）、Med-PaLM 2（医疗, Google, 2023）、BloombergGPT（金融, 2023, 50B）、FinGPT（金融开源, 2023）	法律咨询、医疗诊断辅助、金融研报分析、合规风控
多语言/中文优化模型	针对中文语料和文化语境优化	中文语义理解、古诗词生成、中文逻辑推理、中国文化知识	文心一言（百度, 2023）、通义千问（阿里, 2023）、ChatGLM-4（智谱, 2024）、Baichuan-3（百川, 2024）	中文内容创作、中文客服、中文教育、文化传播
数学/科学推理模型	强化数学计算和科学推理能力	数学证明、公式推导、物理问题求解、科学问答	DeepSeek-Math（DeepSeek, 2024）、Qwen2-Math（阿里, 2024）、Minerva（Google, 2022）	数学辅导、科研辅助、工程计算、竞赛培训

五、按技术特性分类

技术架构的创新推动了大模型效率和能力的突破。

类型	技术特点	工作原理	优势	代表模型
稠密模型（Dense）	所有参数在每次前向传播中全部激活	传统的Transformer架构，每个层都参与计算	架构简单，训练稳定，易于理解和调试	GPT-3（175B）、LLaMA-2-70B（Meta, 2023）、Qwen-72B（阿里, 2023）
稀疏/MoE模型（Mixture of Experts）	每次推理只激活部分专家网络参数	将大模型拆分为多个"专家"子网络，通过门控网络动态选择激活哪些专家	总参数量巨大但推理成本低，扩展性强，性能优异	GPT-4（据传8×220B MoE, OpenAI, 2023）、Mixtral 8x7B（8个专家各7B, Mistral AI, 2023）、Mixtral 8x22B（Mistral AI, 2024）、DeepSeek-V2（236B总参数, 21B激活, DeepSeek, 2024）
长上下文模型	支持超长文本输入窗口（远超传统4K/8K限制）	改进位置编码（如RoPE、ALiBi）、优化注意力机制（如Ring Attention、Sparse Attention）	可处理整本书、长视频、大量代码库、复杂多轮对话	Gemini 1.5 Pro（1M tokens, Google, 2024）、Kimi（200K tokens, 月之暗面, 2024）、GLM-4-9B-1M（1M tokens, 智谱, 2024）、Claude 3（200K tokens, Anthropic, 2024）
检索增强模型（RAG-native）	原生集成外部知识检索能力	在推理时动态检索外部知识库，结合生成模型输出	减少幻觉，知识可实时更新，可解释性强	RAGFlow（开源RAG引擎, 2024）、Dify（开源LLM应用平台, 2024）、Perplexity AI（对话式搜索引擎, 2024）

六、按开源/闭源分类

开源与闭源之争是当前大模型生态的核心议题之一。

类型	特点	商业模式	优势	劣势	代表模型
闭源商业模型	模型权重不公开，仅通过API提供服务	API按量计费、企业订阅授权	性能顶尖、持续迭代、安全可控、无需运维	成本高、数据隐私风险、无法定制化、依赖供应商	GPT-4/GPT-4o（OpenAI）、Claude 3（Anthropic）、Gemini 1.5（Google）、文心一言（百度）、通义千问（阿里）
开源/开放权重模型	模型权重公开，可自由下载和二次开发	开源免费+商业技术支持、云服务托管	可本地部署、数据隐私、可定制化、社区生态活跃	性能通常略逊于顶级闭源模型、需要自行运维、安全责任自负	LLaMA-3（Meta, 2024）、Mistral-7B/8x22B（Mistral AI）、Qwen2（阿里, 2024）、Baichuan-2（百川）、DeepSeek-V2（DeepSeek, 2024）、ChatGLM-4（智谱, 2024）
半开放模型	权重有限开放，需申请或签署协议	研究免费+商业授权	平衡开放性与商业利益	使用受限，合规复杂	LLaMA-2（Meta, 需申请商业授权）、Gemma（Google, 有限开放）

七、综合对比表

模型名称	架构	参数量	训练范式	开源/闭源	特色定位	发布机构	发布时间
GPT-4	Decoder-only (MoE)	~1.8T (8×220B)	预训练+SFT+RLHF	闭源	通用最强基座	OpenAI	2023.03
GPT-4o	Decoder-only (MoE)	~1.8T	预训练+SFT+RLHF	闭源	原生多模态、实时交互	OpenAI	2024.05
Claude 3.5 Sonnet	Decoder-only	未公开	预训练+SFT+RLHF	闭源	超长上下文、安全性高	Anthropic	2024.06
Gemini 1.5 Pro	Decoder-only	未公开	预训练+多模态SFT	闭源	1M+ tokens超长上下文	Google	2024.02
LLaMA-3-70B	Decoder-only (Dense)	70B	预训练+SFT	半开放	开源最强稠密模型	Meta	2024.04
Mixtral 8x22B	Decoder-only (MoE)	176B (39B激活)	预训练+SFT	开源	开源MoE标杆	Mistral AI	2024.04
Qwen2-72B	Decoder-only (Dense)	72B	预训练+SFT+RLHF	开源	中文开源最强基座	阿里巴巴	2024.06
DeepSeek-V2	Decoder-only (MoE)	236B (21B激活)	预训练+SFT+RLHF	开源	极致性价比MoE	DeepSeek	2024.05
Kimi	Decoder-only	未公开	预训练+SFT+RLHF	闭源	200K超长上下文、中文优化	月之暗面	2023.10
ChatGLM-4	GLM (Encoder-Decoder)	未公开	预训练+SFT+RLHF	半开放	中英双语、学术背景强	智谱AI	2024.01
Phi-3-mini	Decoder-only (Dense)	3.8B	预训练+SFT	开源	小模型大能力	Microsoft	2024.04
CodeLlama-70B	Decoder-only (Dense)	70B	预训练+代码SFT	开源	代码生成专用	Meta	2023.08
DeepSeek-Coder-V2	Decoder-only (MoE)	236B	预训练+代码SFT	开源	开源最强代码模型	DeepSeek	2024.06
Med-PaLM 2	Decoder-only	540B	预训练+医疗SFT	闭源	医疗问答专家	Google	2023.05

八、当前发展趋势总结

Decoder-only 架构持续主导：自回归生成已成为通用大模型的标准范式，Encoder-only和Encoder-Decoder架构主要应用于特定场景。
MoE架构成为新趋势：通过稀疏激活实现"大模型能力、小模型成本"，GPT-4、Mixtral、DeepSeek-V2等验证了MoE的可行性。
多模态融合加速：文本、图像、音频、视频的统一建模成为下一代模型的标配，GPT-4o和Gemini 1.5是典型代表。
端侧小型化突破：Phi-3、Gemma-2B等小型模型在保持较高性能的同时实现手机/IoT部署，推动AI普惠化。
长上下文竞赛：上下文窗口从4K扩展到1M+ tokens，使模型能够处理整本书、长视频、大型代码库。
领域专业化深化：基座模型+领域微调（如法律、医疗、金融）成为行业落地的主流模式，降低幻觉风险，提升专业准确性。
开源生态繁荣：LLaMA、Qwen、DeepSeek等开源模型快速追赶闭源模型，推动技术民主化和应用创新。