当前位置: 首页 > news >正文

大语言模型(LLM)分类详解

本文系统梳理大语言模型的多维分类体系,涵盖架构、训练范式、规模、应用定位、技术特性及开源/闭源等维度,并附典型模型实例。


一、按基础架构分类

大语言模型的底层神经网络架构决定了其信息处理方式和适用场景。

类型核心特点工作原理适用任务代表模型
Encoder-only(仅编码器)双向注意力机制,同时关注上下文两侧信息通过掩码语言建模(MLM)理解文本文本分类、情感分析、命名实体识别、语义相似度计算BERT(Google, 2018)、RoBERTa(Meta, 2019)、ERNIE(百度, 2019)
Decoder-only(仅解码器)自回归生成,从左到右逐token预测基于前文预测下一个词,适合开放式生成文本生成、对话系统、代码生成、创意写作GPT-4(OpenAI, 2023)、LLaMA-3(Meta, 2024)、Claude 3(Anthropic, 2024)、Qwen2(阿里, 2024)
Encoder-Decoder(编码器-解码器)编码器理解输入,解码器生成输出序列到序列(Seq2Seq)映射机器翻译、文本摘要、问答系统T5(Google, 2019)、BART(Meta, 2019)、GLM(清华&智谱, 2022)

趋势说明:当前大模型领域以Decoder-only架构为主流。GPT系列的成功验证了自回归生成在通用人工智能中的潜力,使其成为绝大多数大模型的标准选择。


二、按训练范式/目标分类

模型在不同阶段的训练目标决定了其能力边界和使用方式。

类型训练阶段核心方法能力特点典型代表
基础预训练模型第一阶段:无监督预训练在大规模无标注文本上进行自监督学习(如 next-token prediction)具备通用语言理解和生成能力,但缺乏指令遵循能力GPT-3(175B, OpenAI, 2020)、LLaMA-2(7B/13B/70B, Meta, 2023)、Baichuan-2(百川智能, 2023)
指令微调模型(Instruction-tuned)第二阶段:有监督微调(SFT)使用指令-响应对数据进行微调,学习遵循人类指令能够理解并执行具体指令,如"翻译这段话"、"总结文章"Alpaca(斯坦福, 2023, 基于LLaMA-7B)、Vicuna(LMSYS, 2023, 基于LLaMA-13B)、ChatGLM-6B(清华&智谱, 2023)
对齐模型(Alignment)第三阶段:人类偏好对齐通过RLHF(人类反馈强化学习)或RLAIF(AI反馈强化学习)优化输出更安全、有用、符合人类价值观,减少有害内容ChatGPT(OpenAI, 2022)、Claude 3 Opus(Anthropic, 2024)、GPT-4 Turbo(OpenAI, 2024)
多模态模型跨模态预训练融合文本、图像、音频、视频等多模态数据进行联合训练具备跨模态理解和生成能力,如看图说话、视频分析GPT-4V(OpenAI, 2023, 图像理解)、Gemini 1.5 Pro(Google, 2024, 视频+图像+文本)、Qwen-VL(阿里, 2023, 视觉语言)、LLaVA(UC伯克利, 2023, 视觉指令微调)

训练流程示意:基础预训练 → 指令微调(SFT) → 人类偏好对齐(RLHF)


三、按模型规模/参数分类

参数量是衡量模型容量的重要指标,直接影响模型能力和部署成本。

规模级别参数量级典型模型特点部署场景
小型模型< 10B(100亿)Phi-3-mini(3.8B, Microsoft, 2024)、Gemma-2B(Google, 2024)、Qwen2-1.5B(阿里, 2024)轻量高效,推理速度快,资源占用低手机端侧、IoT设备、边缘计算、嵌入式系统
中型模型10B ~ 70B(100亿~700亿)LLaMA-2-13B(Meta, 2023)、Mistral-7B(Mistral AI, 2023)、Baichuan-2-13B(百川, 2023)、ChatGLM3-6B(智谱, 2023)性能与成本的最佳平衡点,开源社区主流个人服务器、中小企业私有化部署、科研实验
大型模型70B ~ 100B+(700亿~1000亿+)LLaMA-2-70B(Meta, 2023)、Qwen-72B(阿里, 2023)、Mixtral 8x7B(Mistral AI, 2023, MoE架构)能力强劲,接近顶级闭源模型,需专业硬件支持企业级数据中心、云计算平台、高性能计算集群
超大规模模型100B+ ~ 万亿级(1000亿+)GPT-4(据传1.8T, MoE架构, OpenAI, 2023)、GPT-3(175B, OpenAI, 2020)、PaLM-2(540B, Google, 2023)顶尖性能,涌现能力强,训练和推理成本极高仅少数头部AI公司/研究机构具备训练和部署能力

:MoE(Mixture of Experts)架构可以在总参数量很大的情况下,通过稀疏激活控制实际推理参数量,如GPT-4据传采用8×220B的MoE结构。


四、按应用定位分类

不同模型针对特定场景进行了优化,形成了专业化的模型矩阵。

类型定位说明核心能力代表模型应用示例
通用基座模型面向广泛任务的通用人工智能知识问答、文本生成、逻辑推理、多轮对话GPT-4o(OpenAI, 2024)、Claude 3.5 Sonnet(Anthropic, 2024)、通义千问2.5(阿里, 2024)、文心一言4.0(百度, 2024)智能客服、内容创作、教育辅导、个人助手
代码专用模型针对代码理解和生成优化代码补全、Bug修复、代码解释、多语言编程GitHub Copilot(基于Codex, OpenAI, 2021)、CodeLlama-70B(Meta, 2023)、DeepSeek-Coder-V2(DeepSeek, 2024)、StarCoder2(HuggingFace, 2024)IDE插件、自动化编程、代码审查、技术文档生成
垂直领域模型针对特定行业知识深度优化领域专业知识问答、合规审查、专业文档生成LawGPT(法律, 2023)、Med-PaLM 2(医疗, Google, 2023)、BloombergGPT(金融, 2023, 50B)、FinGPT(金融开源, 2023)法律咨询、医疗诊断辅助、金融研报分析、合规风控
多语言/中文优化模型针对中文语料和文化语境优化中文语义理解、古诗词生成、中文逻辑推理、中国文化知识文心一言(百度, 2023)、通义千问(阿里, 2023)、ChatGLM-4(智谱, 2024)、Baichuan-3(百川, 2024)中文内容创作、中文客服、中文教育、文化传播
数学/科学推理模型强化数学计算和科学推理能力数学证明、公式推导、物理问题求解、科学问答DeepSeek-Math(DeepSeek, 2024)、Qwen2-Math(阿里, 2024)、Minerva(Google, 2022)数学辅导、科研辅助、工程计算、竞赛培训

五、按技术特性分类

技术架构的创新推动了大模型效率和能力的突破。

类型技术特点工作原理优势代表模型
稠密模型(Dense)所有参数在每次前向传播中全部激活传统的Transformer架构,每个层都参与计算架构简单,训练稳定,易于理解和调试GPT-3(175B)、LLaMA-2-70B(Meta, 2023)、Qwen-72B(阿里, 2023)
稀疏/MoE模型(Mixture of Experts)每次推理只激活部分专家网络参数将大模型拆分为多个"专家"子网络,通过门控网络动态选择激活哪些专家总参数量巨大但推理成本低,扩展性强,性能优异GPT-4(据传8×220B MoE, OpenAI, 2023)、Mixtral 8x7B(8个专家各7B, Mistral AI, 2023)、Mixtral 8x22B(Mistral AI, 2024)、DeepSeek-V2(236B总参数, 21B激活, DeepSeek, 2024)
长上下文模型支持超长文本输入窗口(远超传统4K/8K限制)改进位置编码(如RoPE、ALiBi)、优化注意力机制(如Ring Attention、Sparse Attention)可处理整本书、长视频、大量代码库、复杂多轮对话Gemini 1.5 Pro(1M tokens, Google, 2024)、Kimi(200K tokens, 月之暗面, 2024)、GLM-4-9B-1M(1M tokens, 智谱, 2024)、Claude 3(200K tokens, Anthropic, 2024)
检索增强模型(RAG-native)原生集成外部知识检索能力在推理时动态检索外部知识库,结合生成模型输出减少幻觉,知识可实时更新,可解释性强RAGFlow(开源RAG引擎, 2024)、Dify(开源LLM应用平台, 2024)、Perplexity AI(对话式搜索引擎, 2024)

六、按开源/闭源分类

开源与闭源之争是当前大模型生态的核心议题之一。

类型特点商业模式优势劣势代表模型
闭源商业模型模型权重不公开,仅通过API提供服务API按量计费、企业订阅授权性能顶尖、持续迭代、安全可控、无需运维成本高、数据隐私风险、无法定制化、依赖供应商GPT-4/GPT-4o(OpenAI)、Claude 3(Anthropic)、Gemini 1.5(Google)、文心一言(百度)、通义千问(阿里)
开源/开放权重模型模型权重公开,可自由下载和二次开发开源免费+商业技术支持、云服务托管可本地部署、数据隐私、可定制化、社区生态活跃性能通常略逊于顶级闭源模型、需要自行运维、安全责任自负LLaMA-3(Meta, 2024)、Mistral-7B/8x22B(Mistral AI)、Qwen2(阿里, 2024)、Baichuan-2(百川)、DeepSeek-V2(DeepSeek, 2024)、ChatGLM-4(智谱, 2024)
半开放模型权重有限开放,需申请或签署协议研究免费+商业授权平衡开放性与商业利益使用受限,合规复杂LLaMA-2(Meta, 需申请商业授权)、Gemma(Google, 有限开放)

七、综合对比表

模型名称架构参数量训练范式开源/闭源特色定位发布机构发布时间
GPT-4Decoder-only (MoE)~1.8T (8×220B)预训练+SFT+RLHF闭源通用最强基座OpenAI2023.03
GPT-4oDecoder-only (MoE)~1.8T预训练+SFT+RLHF闭源原生多模态、实时交互OpenAI2024.05
Claude 3.5 SonnetDecoder-only未公开预训练+SFT+RLHF闭源超长上下文、安全性高Anthropic2024.06
Gemini 1.5 ProDecoder-only未公开预训练+多模态SFT闭源1M+ tokens超长上下文Google2024.02
LLaMA-3-70BDecoder-only (Dense)70B预训练+SFT半开放开源最强稠密模型Meta2024.04
Mixtral 8x22BDecoder-only (MoE)176B (39B激活)预训练+SFT开源开源MoE标杆Mistral AI2024.04
Qwen2-72BDecoder-only (Dense)72B预训练+SFT+RLHF开源中文开源最强基座阿里巴巴2024.06
DeepSeek-V2Decoder-only (MoE)236B (21B激活)预训练+SFT+RLHF开源极致性价比MoEDeepSeek2024.05
KimiDecoder-only未公开预训练+SFT+RLHF闭源200K超长上下文、中文优化月之暗面2023.10
ChatGLM-4GLM (Encoder-Decoder)未公开预训练+SFT+RLHF半开放中英双语、学术背景强智谱AI2024.01
Phi-3-miniDecoder-only (Dense)3.8B预训练+SFT开源小模型大能力Microsoft2024.04
CodeLlama-70BDecoder-only (Dense)70B预训练+代码SFT开源代码生成专用Meta2023.08
DeepSeek-Coder-V2Decoder-only (MoE)236B预训练+代码SFT开源开源最强代码模型DeepSeek2024.06
Med-PaLM 2Decoder-only540B预训练+医疗SFT闭源医疗问答专家Google2023.05

八、当前发展趋势总结

  1. Decoder-only 架构持续主导:自回归生成已成为通用大模型的标准范式,Encoder-only和Encoder-Decoder架构主要应用于特定场景。

  2. MoE架构成为新趋势:通过稀疏激活实现"大模型能力、小模型成本",GPT-4、Mixtral、DeepSeek-V2等验证了MoE的可行性。

  3. 多模态融合加速:文本、图像、音频、视频的统一建模成为下一代模型的标配,GPT-4o和Gemini 1.5是典型代表。

  4. 端侧小型化突破:Phi-3、Gemma-2B等小型模型在保持较高性能的同时实现手机/IoT部署,推动AI普惠化。

  5. 长上下文竞赛:上下文窗口从4K扩展到1M+ tokens,使模型能够处理整本书、长视频、大型代码库。

  6. 领域专业化深化:基座模型+领域微调(如法律、医疗、金融)成为行业落地的主流模式,降低幻觉风险,提升专业准确性。

  7. 开源生态繁荣:LLaMA、Qwen、DeepSeek等开源模型快速追赶闭源模型,推动技术民主化和应用创新。

http://www.jsqmd.com/news/1078703/

相关文章:

  • ROS2 Lyrical Luth 发布:Zenoh 替代 DDS,嵌入式开发者迎来机器人OS「轻量化革命」
  • 从零构建 DeepClassify:一个本地代码工程智能管理 Agent
  • 机器学习新手实操地图:5种可解释算法从入门到运行
  • TscanCode深度解析:高性能多语言静态代码分析引擎架构与优化策略
  • 3dsmax更换背景的详细操作
  • 关于算法稳定性与数据分布的内在联系研究的技术8
  • [智能体-517]:AI 软件工程全流程工具(完整 SDLC 生命周期,2026 最新)
  • 使用subagent组建WPF视觉开发团队,全自动开发
  • 时间序列回归实战:滞后特征与滑动窗口工程指南
  • Java国密SM2算法实战:从Bouncy Castle集成到Spring Boot应用
  • 展筑沪上势能:2026上海靠谱展厅设计搭建公司深度实测梳理
  • 第三视觉理解徐玉生与他的商业活动(3)
  • 关于图染色问题的NP完全性与启发式求解的技术8
  • 决策树分类:可解释AI的透明逻辑与工业级落地
  • 多智能体(Multi-Agent)协同:从Workflow失控到Orchestration编排
  • 你会亲手构建什么
  • 如何从Search Agent 方向,切入到 Coding Agent?
  • Elasticsearch介绍
  • IntelliJ IDEA离线安装全攻略(含JetBrains Toolbox替代方案):无网络环境下的3种纯净部署路径,企业IT管理员已批量验证
  • AI 大模型 API 调用报错怎么查?先从错误码看起
  • 最新用 AI 学量化表达,别脱离 Python 和 API 流程
  • RAG的另类思考
  • 计算机岗位100篇___大模型应用开发工程师
  • Leader 考核实习生:“你怎么配置 Claude Code?” 我挠头:“多写 Skills?” 她摇头:“明天别来了!”
  • HIP 编译器优化详解,ROCm 7.x 如何提升大模型推理效率
  • 最新量化开发提效,AI 先检查代码逻辑和流程缺口
  • API 接口可达性检测指南:Postman 能通、全国用户不通的真相
  • AI会成为跟编辑器一样新的一个中间层
  • aeneas:音频和文字自动对齐,支持38种语言
  • Redis 缓存穿透与雪崩问题解决方案