别把 `transformers` 新一代 MoE 支持理解成“多了个 `grouped_mm`”:真正重画的是权重布局、expert backend、expert parallel、router 训
别把transformers新一代 MoE 支持理解成“多了个grouped_mm”:真正重画的是权重布局、expert backend、expert parallel、router 训练信号这 4 层
很多人最近第一次刷到 Hugging Face 在 2026 年 2 月 26 日发布的那篇 MoE 官方博客时,最容易记住的点只有一个:transformers现在给 MoE 加了grouped_mm,推理更快了。这个理解太窄了。你真开始读源码、看文档、接模型时,会发现它真正重画的不是一个 kernel,而是四层过去默认属于“框架内部细节”的边界:权重怎么从 checkpoint 变成运行时布局,expert matmul 到底走哪条 backend,expert parallel 怎么把全局 expert ID 变成本地 expert ID,以及 router logits 什么时候只是观测信号、什么时候已经进入训练 loss。
这篇文章不讲 MoE 原理,也不做 benchmark 复读。我想回答一个更值钱的问题:为什么transformers这轮 MoE 改造,应该被理解成“稀疏模型被做成一等公民”,而不是“又多了一个加速选项”。
