当前位置：首页 > news >正文

LLM--图解MOE架构

news 2026/6/16 5:24:54

文章目录

什么是混合专家模型
专家们
- Dense Layer
- Sparse Layer
专家学习什么
专家的架构
路由
- 路由
- 路由选择
负载均衡
参考资料

MOE：混合专家模型
使用地方：Transformer中FNN部分。

核心部分：路由与专家

什么是混合专家模型

混合专家模型(MOE)：使用**不同子模型(专家)**来提高大模型语言质量。

MOE两个组件：

**专家：**每一个前馈神经网络层有一层“专家”，可以选择其中一个子集。这些专家本身也是前馈神经网络。
路由(门控网络)：****决定那些词元tokens被发送到那些专家。

注意：专家是在单词层面学习句法信息。

路由器(门控网络)，选择最合适专家。

每一个专家都是LLM的一个子部分。

专家们

MOE作用在transformer中FNN中，原始的transformer中FNN属于“密集层(Dense Layer)”.

Dense Layer

Transformer解码器架构

其中FFNN，前馈神经网络如下。

Sparse Layer

Dense Layer在前馈神经网络中激活了所有神经元。

稀疏模型，只激活一部分参数，混合专家模型与其密切相关。

思想：每个专家在训练过程中学习到不同信息，然后在推理的时候，根据不同问题信息选定不同专家进行推理预测。

这个就像是训练拥有了不同领域的专家，更加聚焦，以前就像是“一个全能人才”处理所有事情，现在是“有n个领域的专家”。

专家学习什么

专家学习：学习更加细粒度信息。

从图中可以看出，它相当于对层进行分组，分别训练，每一组就是一个“专家”，“负责一个具体任务”。

专家的架构

注意：专家其实是分割密集型FNN，但是本质也是完整的FNN，即完整的前馈神经网络。

在大模型LLM中，Decoder含有多层，因此在生成文本之前，给定的文本会经过多个专家处理，**但是所选的专家在不同层所在位置可能不同，这会导致走 **不同路径。

总的来说，就像是“FFN的分类”。

路由

路由：给定标记选择合适的专家，即让大模型知道使用那个专家。

路由

也是前馈神经网络的一部分，根据特定输入来选择专家，这里再次证明了Softmax的强大之处。

这里，MOE架构基本完整了，即：“专家 + 路由”

稀疏与密集MOE

稀疏MOE：选择部分专家
密集MOE：选择全部专家

路由选择

它不仅决定了在推理过程中选择哪些专家，还决定了在训练过程中选择哪些专家。

看了原理，他是用可训练的路由权重矩阵来做选择的，可以划分为3步。

输入与理由权重矩阵相乘
之后，将H(x)通过Softmax权重归一化，生成概率权重，即每一个专家的概率分布。
最后每个路由器输出与每个选定专家的输出相乘，并且将结果相加。

整体流程

负载均衡

目的：训练的时候尽可能均匀的将数据分配给不同专家。

方法

通过引入可训练的（高斯）噪声(噪声随机性大)，我们可以防止总是选择相同的专家：

然后，如果需要激活前K个专家，比如说2个，之前其他专家都设置为-∞，这样就避免了反复选择一个专家。

参考资料

https://github.com/Elvin-Ma/distributed_training

查看全文

http://www.jsqmd.com/news/601768/

用Python接入百炼大模型做AI对话

G729系列语音编码全套完整源码及其精简版本（G729A、G729B、G729C、G729D、G729E等）的全套完整源代码

老人补脑预防记忆力衰退？磷脂酰丝氨酸DHA神经酸脑活素品牌专业排名，安全款优选推荐 - 博客万

效率提升：用快马AI自动化分析抖音更新，释放开发者生产力

TVA深度解析（7）：深度强化学习如何赋能制造业柔性生产

Cogito 3B实战应用：打造个人专属的代码解释与生成工具

Vue2管理系统模板：5分钟构建专业后台的完整解决方案

企业级工具激活新方案：Atlassian Agent全流程应用指南

零基础入门必看：公众号编辑器哪个好用？深度横评5大平台，专注提效 - 鹅鹅鹅ee

Steam游戏《Turing Complete》通关后，我终于亲手从与非门造出了一台能跑程序的CPU

总结2026年海南能提供营销工具的进口美妆服务商，推荐哪家 - 工业推荐榜

题解：AT_abc452_f

隐私优先的实时语音转写：TMSpeech本地语音识别解决方案

实战指南：基于SWIFT框架对Qwen2.5-VL-3B模型进行全参数微调

千问3.5-2B应用指南：智能客服图片问答、内容审核实战解析

OpenClaw多任务并行：Qwen3-14b_int4_awq同时处理文件整理与邮件回复

Wan2.2-I2V-A14B模型生成复古像素艺术与游戏角色Sprite

天利怎么样，浙江地区口碑好的厂家有哪些 - myqiye

从单打独斗到团队协作：用Python虚拟环境和requirements.txt搞定项目环境一致性

TVA深度解析（8）：项目部署的投资回报精细化测算

Axure疑难杂症：完美解决下拉列表被选项的读取和联动、以及无法赋值解析（版本之痛）

uni-app怎么获取微信小程序订阅消息授权 uni-app权限诱导引导【代码】

STM32智能光控系统在养殖场的应用实践

2026六国水上市场情侣民宿攻略大汇总，西双版纳酒店/民宿/住宿/酒店/西双版纳住宿/西双版纳民宿，民宿实力花卉园 - 品牌推荐师

如何高效配置HS2-HF Patch：200+插件一键安装专业指南

PyTorch 2.9镜像效果实测：如何利用新特性提升资源利用率与训练效率

零门槛实战：在AutoDL云端一键部署与训练你的专属LoRA模型

认知撕裂：亚马逊上，为何品牌延伸会制造“搜索意图”与“品牌印象”的致命冲突

如何通过NetEase-Cloud-Music-DiscordRPC实现Discord音乐状态智能同步？

个人财务助手：OpenClaw+千问3.5-35B-A3B-FP8自动解析银行卡账单