当前位置：首页 > news >正文

混合专家MoE没你想的那么玄乎：拆开GPT-4和DeepSeek V4的核心架构

news 2026/5/9 11:49:43

上周跟一个朋友聊天，他说他在读 MoE 的论文，读了两天没太搞明白。我说你换个角度想——MoE 就像一家大型公司的组织架构。

传统的大模型就像一个全能型员工，一个人啥都得会。MoE 换了个思路：你不是要让一个人啥都会吗？那我换一下，请一群专家，每人只负责一个领域。出问题的时候，让一个"调度员"判断该找谁。

就这么简单。

当然，真要实现起来还是有不少技术细节。这篇文章我打算把 MoE 拆开揉碎了讲，附带我最近看论文和实践的一些理解。

先说说为什么要有 MoE

传统 Transformer 模型有个硬伤——计算成本跟参数量是跟着模型规模一起膨胀的。GPT-3 是 1750 亿参数，一张 A100 都装不下，得上几十张卡并行跑。

问题在于，你输入"今天天气怎么样"这种简单问题的时候，模型也需要激活全部 1750 亿参数。这不是浪费吗？

MoE 的思路就是"只激活需要的那部分"。把模型拆成多个"专家"子网络，每个专家擅长处理不同类型的输入。输入来了，路由机制选几个专家激活，其他专家休息。

效果立竿见影：MoE 版本的模型，参数总量可以做到很大（比如万亿级别），但每次推理只激活其中的一小部分，计算成本和推理速度跟小模型差不多。

这大概是 MoE 最核心的竞争力。

MoE 的结构长什么样

标准的 MoE 层由三部分组成：

专家网络：通常就是几个 FFN（前馈网络），每个专家是一组独立的参数
路由（Router）：也叫门控网络，决定每个 token 分配给哪些专家
负载均衡：确保 token 不会全部涌向同一个专家

具体流程是这样的：

输入一个 token，首先通过 Router 计算它跟各个专家的"匹配度"，Router 给每个专家打一个分数。然后选 Top-K 个得分最高的专家。把 token 发给选中的专家，让专家处理它。最后把专家输出做加权求和，Router 的分数就是权重。

我在实验里复现了一个简单的 MoE 层，核心代码大概这样：

classMoELayer(nn.Module):def__init__(self,d_model,num_experts,top_k=2):super().__init__()self.router=nn.Linear(d_model,num_experts)self.experts=nn.ModuleList([FeedForward(d_model)for_inrange(num_experts)])self.top_k=top_kdefforward(self,x):# 计算路由权重routing_weights=F.softmax(self.router(x),dim=-1)# 选Top-K个专家top_k_weights,top_k_indices=torch.topk(routing_weights,self.top_k,dim=-1)top_k_weights=top_k_weights/top_k_weights.sum(dim=-1,keepdim=True)# 初始化和输出final_output=torch.zeros_like(x)fori,expertinenumerate(self.experts):mask=(top_k_indices==i).any(dim=-1)ifmask.any():final_output[mask]+=top_k_weights[mask]*expert(x[mask])returnfinal_output

当然这是简化版，真正的工业实现要考虑负载均衡、专家容量、通信优化这些问题。但核心逻辑就是这几行代码。

路由策略：软路由 vs 硬路由

这块是 MoE 论文里争论最多的话题之一。

软路由：token 分配给所有专家，每个专家分配不同的权重。优点是梯度能回传到所有专家，训练更稳定。缺点是计算量更大——激活了所有专家，那还要 MoE 干嘛？

硬路由：token 只分配给 Top-K 个专家，其他专家不参与计算。这带来一个训练问题——非 Top-K 的专家没有梯度，可能永远得不到训练。这个"专家坍缩"问题困扰了 MoE 很久。

现在的工业实现（GPT-4、DeepSeek V4、Mixtral 8x7B）基本都是硬路由 Top-2。至于专家坍缩，靠的是辅助损失函数和负载均衡策略来解决。

负载均衡：MoE 最头疼的问题

想象一下：如果 Router 总是把大部分 token 分配给同一个或少数几个专家，剩下的专家就"失业"了。这不仅浪费了模型容量，还会让模型性能下降。

这个问题在训练初期特别容易出现——Router 的初始权重是随机的，很容易让 token 集中到一两个"幸运"的专家上。

解决策略到现在已经发展了好几代：

Batch-wise 负载均衡损失（Switch Transformer 方案）：在损失函数里加一项负载均衡的惩罚，鼓励 token 在各个专家间均匀分布。

Expert Choice（2023年论文）：反向思路——不再让 token 选专家，而是让专家选 token。每个专家选最重要的一批 token。这个方案理论上更优，实际效果也挺好。

DeepSeek V4 的方案：用了一种动态关联的负载均衡策略，据他们论文的说法，把专家之间的 token 分配偏差控制在了 5% 以内。

DeepSeek V4 的 MoE 有多猛

说到 MoE 就绕不开 DeepSeek V4。它的架构是目前 MoE 落地做的最极致的案例之一。

DeepSeek V4 总参数量是 1.6T（万亿），但每次推理只激活 380 亿参数。激活率低于 3%。

1.6T 是什么概念？如果用传统 Dense 模型，这个体量光推理成本就是一个天文数字。但 MoE 让它能在消费级场景跑起来。虽然 1.6T 不可能单卡跑，但 380 亿激活参数的推理效率，已经比很多百亿级 Dense 模型高了一个数量级。

DeepSeek V4 用了 256 个专家，Top-2 路由。这意味着每个 token 只激活 2 个专家。

它还引入了一个叫 Multi-Head Latent Attention 的机制，在注意力层也做了参数共享优化。本质上也是 MoE 的思维——注意力阶段就控制计算量，不给后面的 FFN 层留太多输入。

GPT-4 的 MoE 还没公开

OpenAI 一直没有公开 GPT-4 的具体架构。但根据多方分析和泄露信息，普遍认为 GPT-4 使用了 8 组专家，每组约 220B 参数，Top-2 激活。也就是推理时激活约 440B 参数。

这个规模跟 DeepSeek V4 比显得有点保守，但 GPT-4 发布更早，那时 MoE 的工程实践经验还没那么丰富。

有意思的是，GPT-4 的专家分组设计据说是按功能域划分的——有的专家组擅长代码，有的擅长推理，有的擅长创意生成。这种"领域专家"的设计哲学，跟 MoE 的直觉更接近。

而 DeepSeek V4 的专家是更细粒度的，256 个专家分布在不同的层级上，每个专家不绑定特定领域。Router 动态学习 token 和专家的匹配关系。

这两种设计思路目前没有定论谁更好，只能说是不同的设计哲学。

MoE 的工程挑战

理论说完了，聊聊工程实践里 MoE 最让人头疼的问题。

通信瓶颈：MoE 的一个核心特性——每个 token 要去不同的专家——天然要求跨设备通信。在分布式训练中，专家分布在不同的 GPU 上，token 需要频繁的 all-to-all 通信。我做过实验，通信开销可以占到总训练时间的 30% 以上。

优化方式包括：专家放置策略（把频繁被一起调用的专家放在同一节点）、梯度压缩、异步通信。

显存压力：虽然推理时只激活部分专家，但训练时所有专家的参数都要加载到显存里。1.6T 参数的 MoE 训练，光存参数就需要 3.2TB（半精度）。训练 DeepSeek V4 据说用了上千张 GPU。

专家负载不均衡：前面说的负载均衡问题，在训练中需要持续监控。一旦发现某个专家"罢工"，需要及时调整损失函数的权重。

推理部署：MoE 模型的推理部署比 Dense 模型复杂。因为不同输入会激活不同的专家，缓存和批处理策略都要重新设计。

MoE 适合什么样的项目

如果你正在考虑要不要在自己的项目里用 MoE，我的建议分三种情况：

训练新模型：如果你有大规模算力资源想从头训一个超大模型，MoE 几乎是必选项。1B 以下的小模型用 Dense 更好，参数量的优势体现不出来。

微调已有 MoE 模型：DeepSeek V4、Mixtral 8x7B 都开源了，可以用它们的权重做微调。注意 MoE 模型的微调跟 Dense 模型不太一样——路由参数要不要冻结？专家怎么调度？这些都需要调。

推理已有 MoE 模型：直接用就好，MoE 的推理接口跟普通模型没区别。优点是速度更快、成本更低。

写在最后

MoE 的核心思想其实很简单——别把所有鸡蛋放在一个篮子里。但实现起来确实有不少坑。

说实话，我觉得 MoE 对普通开发者的意义不在于"从头训一个 MoE 模型"，而是在于理解它之后，你能更好地用这些模型。

知道它的路由机制，你就知道为什么某些提示词效果更好。知道负载均衡的设计，你就知道为什么某些场景下 MoE 模型的输出质量波动比 Dense 模型大。知道通信瓶颈在哪，你就知道为什么 MoE 模型的推理服务提供商定价跟普通模型不一样。

理解底层原理，用起来才顺手。

查看全文

http://www.jsqmd.com/news/782701/

Tekla 图纸还在人工调？一个项目浪费几十小时，自动调图到底能省多少时间

目前卡号2326沃尔玛卡回收应对方式（共四种） - 猎卡回收公众号

宜兴黄金回收大揭秘！5 街道 13 镇全上门，价高秤准，绝不套路 - 金掌柜黄金回收

2026年西安旧房改造公司哪家好适配各类旧房场景售后完善有保障 - 深度智识库

智码 AICoder 全功能体验：Claude Code / Codex / Gemini CLI 一处管 + 多账号切换 + MCP + vibe coding + 移动端伴侣

CANN/atvoss幂运算接口

瓶包装生产线推广别再瞎投广告：这几个渠道更有效 - 品牌推荐大师

OpenClaw配置开发体验优化：VS Code扩展的智能诊断与安全同步

CEO 想要“可以追问”的报表：从静态 Dashboard 到交互式 AI 决策报告

数字电源控制技术：从效率优化到智能管理

如何让你的Atom编辑器说中文：三步实现完整中文汉化体验

2026年4家高低温真空电机厂家对比极端工况选型参考 - 速递信息

WeChatPad：解锁微信多设备协同，重塑移动办公边界

生态：智能体与环境的双向塑造 ——为什么超级进化只能是科幻

CANN / ops-nn GELU算子

Linux挂载硬盘是什么意思？一文读懂原理、步骤与实操技巧

CANN/ATVOSS临时对象函数方法

CANN工具SIG项目

亨得利名表子官方授权服务点全网最全测评：2026年南京/无锡/上海/北京/深圳/杭州门店地址+预约避坑指南，修表人必看！ - 亨得利腕表维修中心

核心概念扫盲：Pawn、PlayerController 和 GameMode

Flutter for OpenHarmony番茄工作法学习计时器

Go语言怎么做密码加密_Go语言bcrypt密码哈希教程【总结】

【Pocket Flow】源码剖析（一）：100 行代码的极简哲学——Node、Flow 与 Shared Store

在Windows终端环境中使用Taotoken CLI管理多个项目的API配置

AutoCAD软件许可浪费严重？合规回收闲置许可，共享给同事

Spring AI 2.0 开发Java Agent智能体 - 对话与提示词工程（Prompt）

键盘上的麦克风按钮：笔记本静音/开启的终极指南

CANN/HCCL Ring集合通信算法

LeetCode HOT100 - 子集