当前位置：首页 > news >正文

MoE混合专家模型是什么？

news 2026/7/14 19:39:28

MoE混合专家模型，能在保住模型整体容量的前提下，明显减少计算开销。

我们项目里用的是阿里的MoE模型，结尾带A3B。之前给甲方做汇报，有个同事不清楚A3B是什么，还一本正经解释成智能体参数，说就只是3B参数，当时听着特别离谱。

我虽然没仔细研究过千问系列的命名，但A3B是智能体参数这个说法明显不对。好在当时甲方没人听出来，之后我就特意去查了A3B到底是什么意思。

查完才知道，千问系列里A*B这种命名是有规律的，主要和MoE混合专家模型有关。

MoE混合专家模型是什么？

可能有些人了解过混合专家模型，但更多人其实还不清楚 MoE 到底是什么；MoE 其实早在几十年前就已经出现，而在国内真正被大家熟知，还是在 DeepSeek 模型火起来之后，因为它就是基于 MoE 架构做出来的。

MoE 的全称是 Mixture of Experts，也就是混合专家模型。它大概在 1991 年由 Michael I. Jordan 和 Robert A. Jacobs 等人提出，核心思路就是把多个专家模型组合在一起，去处理复杂任务，每个专家只专注做好自己擅长的那一部分。MoE 模型会通过一个“门控”机制，根据输入内容的特点，自动选出最合适的专家来工作。

简单说，基于 MoE 架构的模型，是由很多个子模块组成的，每个子模块就是一个“专家 Expert”，各自擅长不同的任务。真正跑任务的时候，只让和当前任务相关的专家参与，其他专家可以不工作。任务分配时，会有一个前置的“门控”来判断需要哪些专家，需要谁就激活谁。比如一个 300 亿参数的模型，某个任务只需要 3 个专家参与，对应参数量是 30 亿，那它的激活参数就是 3B。

举个好懂的例子：你们班要参加一个综合学术竞赛，不限制科目，所以要找擅长不同学科的同学组成队伍。比赛时，根据具体题目，只让一个或几个对应的同学去解题就行。

这支参赛队伍就相当于一个 MoE 模型，每个同学就是一个专家。碰到物理、化学题，就激活擅长物理、化学、数学的同学；碰到历史、文学题，就激活擅长历史、文学的同学，其他同学可以暂时休息。

这么做的好处很明显：能用更少的资源，解决更多的问题。所以，激活参数 Activated Parameters 是 MoE 混合专家模型里的核心概念，指的是每次推理时，真正被激活、参与计算的那一部分参数。这种设计会动态调用部分专家来处理输入，在保证模型能力的同时，大幅降低计算成本。

毕竟从道理上讲，培养一批各有所长的人，远比培养一个什么都会的全能人才要容易得多。

激活参数的定义与作用

动态专家选择

Qwen 的 MoE 模型，比如 Qwen3-235B-A22B，是由多个专家网络组成的，每一次输入只会激活其中一部分专家，比如 8 个专家里只激活 2 个，激活参数指的就是这些被选中专家的参数。

降低计算成本

举个例子，Qwen3-30B-A3B 总参数有 300 亿，但每次推理只激活 30 亿参数，只占总参数的 10%，却能达到和更大的普通稠密模型差不多的效果。

提升效率

通过控制激活参数的大小，模型在训练和推理时，显存占用、计算量都会明显减少，很适合在资源有限的场景下使用。

激活参数的技术优势

混合思维模式

Qwen3 支持思考模式和非思考模式，用户可以用 /think 或 /no_think 这样的指令，灵活调整激活参数的使用方式，在推理深度和速度之间做平衡。

优化资源配置

通过控制激活参数的比例，模型可以根据任务难度自动分配算力。简单问题只用少量激活参数快速回答，复杂问题就激活更多参数做深度推理。

开发者如何利用激活参数

参数调整接口

用户可以通过 API 参数，比如 top_k、top_p，来影响模型对专家的选择，间接控制激活参数的大小。

部署工具支持

推荐用 SGLang、vLLM 这类框架进行部署，本地工具像 Ollama、llama.cpp 也都支持激活参数的动态管理。

http://www.jsqmd.com/news/890913/

相关文章：

结构保持模型降阶：结合神经自编码器与哈密顿力学的非线性系统控制

2026最新用户口碑：浩卡联盟一级推荐码99999，新手做流量卡代理先看这篇 - 博客万

Unity+Mirror语音集成避坑指南：VoiceChat资源体系与网络耦合深度解析

突破网盘下载困境：LinkSwift直链助手让你的文件下载速度飞起来

bili2text：三分钟将B站视频转换为高质量文字稿的终极方案

2026新榜单：长治除甲醛CMA甲醛检测治理公司公共卫生检测报告排行榜（2026版） - 五金回收

2026年6月劳力士售后维修保养指南：官方认证网点地址查询 + 服务热线400-106-3365预约通道 - 速递信息

震惊！原来论文还能这样搞定？2026降AI率网站推荐合集

新手必看！2026合肥黄金回收门店挑选指南+防骗知识点 - 奢侈品回收测评

LCVT-GR：基于Transformer的乳腺X线双视图全局-局部协同分析模型

国内主流烘焙加盟品牌排行：5家实力品牌深度盘点 - 奔跑123

网盘直链下载助手：8大主流网盘下载限速的终结者

PHPGGC：PHP反序列化漏洞测试的终极武器库

市面上有哪些是真正无痕改写的AI智能降重工具（告别论文AI标记风险）

2026成都西装定制实力榜：这5家店铺凭硬核实力突围 - 西装爱好者

19 OneNET平台MQTT属性远程下发测试（MQTTX客户端实操）

2026新榜单：昭通除甲醛CMA甲醛检测治理公司公共卫生检测报告排行榜（2026版） - 五金回收

浙江建德寄件省钱指南｜多款实用寄件渠道实测，发全国性价比拉满 - 时讯资讯

VS2019编译WinXP兼容程序：从环境配置到疑难排错全攻略

杭州临平专业排屋别墅的装修公司哪家值得推荐 - 速递信息

郑州黄金回收全城覆盖长悦老店上门秒到账价格透明 - 专业黄金回收

2026新榜单：肇庆CMA甲醛检测治理及公共卫生检测报告地址联系方式集合（2026版） - 五金回收

在浏览器中创建心理学实验的终极指南：使用jsPsych框架的完整教程

Git 命令速查手册

收藏！AI来了怕失业？前端老兵9年经验告诉你：会用AI才是核心竞争力！

基于复数神经网络与对比预测编码的射频指纹识别技术详解

深度学习地震速度建模：循环学习率与双注意力机制提升反演精度

清洁方便、操作简单：高性价比全自动咖啡机怎么挑 - 品牌2025

Godot中落地强化学习AI的完整工程指南

2026全国金属加工制品，聚焦西北区域优质企业 - 深度智识库