当前位置: 首页 > news >正文

LLM--图解MOE架构

文章目录

  • 什么是混合专家模型
  • 专家们
    • Dense Layer
    • Sparse Layer
  • 专家学习什么
  • 专家的架构
  • 路由
    • 路由
    • 路由选择
  • 负载均衡
  • 参考资料

MOE:混合专家模型

使用地方:Transformer中FNN部分。

核心部分:路由与专家

什么是混合专家模型

混合专家模型(MOE):使用**不同子模型(专家)**来提高大模型语言质量。

MOE两个组件:

  • **专家:**每一个前馈神经网络层有一层“专家”,可以选择其中一个子集。这些专家本身也是前馈神经网络。
  • 路由(门控网络):****决定那些词元tokens被发送到那些专家。

注意:专家是在单词层面学习句法信息

路由器(门控网络),选择最合适专家。

每一个专家都是LLM的一个子部分。

专家们

MOE作用在transformer中FNN中,原始的transformer中FNN属于“密集层(Dense Layer)”.

Dense Layer

Transformer解码器架构

其中FFNN,前馈神经网络如下。

Sparse Layer

Dense Layer在前馈神经网络中激活了所有神经元。

稀疏模型,只激活一部分参数,混合专家模型与其密切相关。

思想:每个专家在训练过程中学习到不同信息,然后在推理的时候,根据不同问题信息选定不同专家进行推理预测。

这个就像是训练拥有了不同领域的专家,更加聚焦,以前就像是“一个全能人才”处理所有事情,现在是“有n个领域的专家”。


专家学习什么

专家学习学习更加细粒度信息

从图中可以看出,它相当于对层进行分组,分别训练,每一组就是一个“专家”,“负责一个具体任务”。

专家的架构

注意:专家其实是分割密集型FNN,但是本质也是完整的FNN,即完整的前馈神经网络

在大模型LLM中,Decoder含有多层,因此在生成文本之前,给定的文本会经过多个专家处理,**但是所选的专家在不同层所在位置可能不同,这会导致走 **不同路径 。

总的来说,就像是“FFN的分类”。

路由

路由给定标记选择合适的专家,即让大模型知道使用那个专家。

路由

也是前馈神经网络的一部分,根据特定输入来选择专家,这里再次证明了Softmax的强大之处。

这里,MOE架构基本完整了,即:“专家 + 路由”


稀疏与密集MOE

  • 稀疏MOE:选择部分专家
  • 密集MOE:选择全部专家

路由选择

它不仅决定了在推理过程中选择哪些专家,还决定了在训练过程中选择哪些专家。

看了原理,他是用可训练的路由权重矩阵来做选择的,可以划分为3步。

  1. 输入与理由权重矩阵相乘

  2. 之后,将H(x)通过Softmax权重归一化,生成概率权重,即每一个专家的概率分布。

  3. 最后每个路由器输出与每个选定专家的输出相乘,并且将结果相加

整体流程

负载均衡

目的:训练的时候尽可能均匀的将数据分配给不同专家。

方法

通过引入可训练的(高斯)噪声(噪声随机性大),我们可以防止总是选择相同的专家:

然后,如果需要激活前K个专家,比如说2个,之前其他专家都设置为-∞,这样就避免了反复选择一个专家。

参考资料

  • https://github.com/Elvin-Ma/distributed_training
http://www.jsqmd.com/news/601768/

相关文章:

  • 用Python接入百炼大模型做AI对话
  • G729系列语音编码全套完整源码及其精简版本(G729A、G729B、G729C、G729D、G729E等)的全套完整源代码
  • 老人补脑预防记忆力衰退?磷脂酰丝氨酸DHA神经酸脑活素品牌专业排名,安全款优选推荐 - 博客万
  • 效率提升:用快马AI自动化分析抖音更新,释放开发者生产力
  • TVA深度解析(7):深度强化学习如何赋能制造业柔性生产
  • Cogito 3B实战应用:打造个人专属的代码解释与生成工具
  • Vue2管理系统模板:5分钟构建专业后台的完整解决方案
  • 企业级工具激活新方案:Atlassian Agent全流程应用指南
  • 零基础入门必看:公众号编辑器哪个好用?深度横评5大平台,专注提效 - 鹅鹅鹅ee
  • Steam游戏《Turing Complete》通关后,我终于亲手从与非门造出了一台能跑程序的CPU
  • 总结2026年海南能提供营销工具的进口美妆服务商,推荐哪家 - 工业推荐榜
  • 题解:AT_abc452_f
  • 隐私优先的实时语音转写:TMSpeech本地语音识别解决方案
  • 实战指南:基于SWIFT框架对Qwen2.5-VL-3B模型进行全参数微调
  • 千问3.5-2B应用指南:智能客服图片问答、内容审核实战解析
  • OpenClaw多任务并行:Qwen3-14b_int4_awq同时处理文件整理与邮件回复
  • Wan2.2-I2V-A14B模型生成复古像素艺术与游戏角色Sprite
  • 天利怎么样,浙江地区口碑好的厂家有哪些 - myqiye
  • 从单打独斗到团队协作:用Python虚拟环境和requirements.txt搞定项目环境一致性
  • TVA深度解析(8):项目部署的投资回报精细化测算
  • Axure疑难杂症:完美解决下拉列表被选项的读取和联动、以及无法赋值解析(版本之痛)
  • uni-app怎么获取微信小程序订阅消息授权 uni-app权限诱导引导【代码】
  • STM32智能光控系统在养殖场的应用实践
  • 2026六国水上市场情侣民宿攻略大汇总,西双版纳酒店/民宿/住宿/酒店/西双版纳住宿/西双版纳民宿,民宿实力花卉园 - 品牌推荐师
  • 如何高效配置HS2-HF Patch:200+插件一键安装专业指南
  • PyTorch 2.9镜像效果实测:如何利用新特性提升资源利用率与训练效率
  • 零门槛实战:在AutoDL云端一键部署与训练你的专属LoRA模型
  • 认知撕裂:亚马逊上,为何品牌延伸会制造“搜索意图”与“品牌印象”的致命冲突
  • 如何通过NetEase-Cloud-Music-DiscordRPC实现Discord音乐状态智能同步?
  • 个人财务助手:OpenClaw+千问3.5-35B-A3B-FP8自动解析银行卡账单