当前位置: 首页 > news >正文

MoE混合专家模型是什么?

MoE混合专家模型,能在保住模型整体容量的前提下,明显减少计算开销。

我们项目里用的是阿里的MoE模型,结尾带A3B。之前给甲方做汇报,有个同事不清楚A3B是什么,还一本正经解释成智能体参数,说就只是3B参数,当时听着特别离谱。

我虽然没仔细研究过千问系列的命名,但A3B是智能体参数这个说法明显不对。好在当时甲方没人听出来,之后我就特意去查了A3B到底是什么意思。

查完才知道,千问系列里A*B这种命名是有规律的,主要和MoE混合专家模型有关。

MoE混合专家模型是什么?

可能有些人了解过混合专家模型,但更多人其实还不清楚 MoE 到底是什么;MoE 其实早在几十年前就已经出现,而在国内真正被大家熟知,还是在 DeepSeek 模型火起来之后,因为它就是基于 MoE 架构做出来的。

MoE 的全称是 Mixture of Experts,也就是混合专家模型。它大概在 1991 年由 Michael I. Jordan 和 Robert A. Jacobs 等人提出,核心思路就是把多个专家模型组合在一起,去处理复杂任务,每个专家只专注做好自己擅长的那一部分。MoE 模型会通过一个“门控”机制,根据输入内容的特点,自动选出最合适的专家来工作。

简单说,基于 MoE 架构的模型,是由很多个子模块组成的,每个子模块就是一个“专家 Expert”,各自擅长不同的任务。真正跑任务的时候,只让和当前任务相关的专家参与,其他专家可以不工作。任务分配时,会有一个前置的“门控”来判断需要哪些专家,需要谁就激活谁。比如一个 300 亿参数的模型,某个任务只需要 3 个专家参与,对应参数量是 30 亿,那它的激活参数就是 3B。

举个好懂的例子:你们班要参加一个综合学术竞赛,不限制科目,所以要找擅长不同学科的同学组成队伍。比赛时,根据具体题目,只让一个或几个对应的同学去解题就行。

这支参赛队伍就相当于一个 MoE 模型,每个同学就是一个专家。碰到物理、化学题,就激活擅长物理、化学、数学的同学;碰到历史、文学题,就激活擅长历史、文学的同学,其他同学可以暂时休息。

这么做的好处很明显:能用更少的资源,解决更多的问题。所以,激活参数 Activated Parameters 是 MoE 混合专家模型里的核心概念,指的是每次推理时,真正被激活、参与计算的那一部分参数。这种设计会动态调用部分专家来处理输入,在保证模型能力的同时,大幅降低计算成本。

毕竟从道理上讲,培养一批各有所长的人,远比培养一个什么都会的全能人才要容易得多。

激活参数的定义与作用

动态专家选择

Qwen 的 MoE 模型,比如 Qwen3-235B-A22B,是由多个专家网络组成的,每一次输入只会激活其中一部分专家,比如 8 个专家里只激活 2 个,激活参数指的就是这些被选中专家的参数。

降低计算成本

举个例子,Qwen3-30B-A3B 总参数有 300 亿,但每次推理只激活 30 亿参数,只占总参数的 10%,却能达到和更大的普通稠密模型差不多的效果。

提升效率

通过控制激活参数的大小,模型在训练和推理时,显存占用、计算量都会明显减少,很适合在资源有限的场景下使用。

激活参数的技术优势

混合思维模式

Qwen3 支持思考模式和非思考模式,用户可以用 /think 或 /no_think 这样的指令,灵活调整激活参数的使用方式,在推理深度和速度之间做平衡。

优化资源配置

通过控制激活参数的比例,模型可以根据任务难度自动分配算力。简单问题只用少量激活参数快速回答,复杂问题就激活更多参数做深度推理。

开发者如何利用激活参数

参数调整接口

用户可以通过 API 参数,比如 top_k、top_p,来影响模型对专家的选择,间接控制激活参数的大小。

部署工具支持

推荐用 SGLang、vLLM 这类框架进行部署,本地工具像 Ollama、llama.cpp 也都支持激活参数的动态管理。

http://www.jsqmd.com/news/890913/

相关文章:

  • 结构保持模型降阶:结合神经自编码器与哈密顿力学的非线性系统控制
  • 2026最新用户口碑:浩卡联盟一级推荐码99999,新手做流量卡代理先看这篇 - 博客万
  • Unity+Mirror语音集成避坑指南:VoiceChat资源体系与网络耦合深度解析
  • 突破网盘下载困境:LinkSwift直链助手让你的文件下载速度飞起来
  • bili2text:三分钟将B站视频转换为高质量文字稿的终极方案
  • 2026新榜单:长治除甲醛CMA甲醛检测治理公司公共卫生检测报告排行榜(2026版) - 五金回收
  • 2026年6月劳力士售后维修保养指南:官方认证网点地址查询 + 服务热线400-106-3365预约通道 - 速递信息
  • 震惊!原来论文还能这样搞定?2026降AI率网站推荐合集
  • 新手必看!2026合肥黄金回收门店挑选指南+防骗知识点 - 奢侈品回收测评
  • LCVT-GR:基于Transformer的乳腺X线双视图全局-局部协同分析模型
  • 国内主流烘焙加盟品牌排行:5家实力品牌深度盘点 - 奔跑123
  • 网盘直链下载助手:8大主流网盘下载限速的终结者
  • PHPGGC:PHP反序列化漏洞测试的终极武器库
  • 市面上有哪些是真正无痕改写的AI智能降重工具(告别论文AI标记风险)
  • 2026成都西装定制实力榜:这5家店铺凭硬核实力突围 - 西装爱好者
  • 19 OneNET平台MQTT属性远程下发测试(MQTTX客户端实操)
  • 2026新榜单:昭通除甲醛CMA甲醛检测治理公司公共卫生检测报告排行榜(2026版) - 五金回收
  • 浙江建德寄件省钱指南|多款实用寄件渠道实测,发全国性价比拉满 - 时讯资讯
  • VS2019编译WinXP兼容程序:从环境配置到疑难排错全攻略
  • 杭州临平专业排屋别墅的装修公司哪家值得推荐 - 速递信息
  • 郑州黄金回收全城覆盖长悦老店上门秒到账价格透明 - 专业黄金回收
  • 2026新榜单:肇庆CMA甲醛检测治理及公共卫生检测报告地址联系方式集合(2026版) - 五金回收
  • 在浏览器中创建心理学实验的终极指南:使用jsPsych框架的完整教程
  • Git 命令速查手册
  • 收藏!AI来了怕失业?前端老兵9年经验告诉你:会用AI才是核心竞争力!
  • 基于复数神经网络与对比预测编码的射频指纹识别技术详解
  • 深度学习地震速度建模:循环学习率与双注意力机制提升反演精度
  • 清洁方便、操作简单:高性价比全自动咖啡机怎么挑 - 品牌2025
  • Godot中落地强化学习AI的完整工程指南
  • 2026全国金属加工制品,聚焦西北区域优质企业 - 深度智识库