当前位置：首页 > news >正文

MoE 训练为什么一降路由温度就开始前期更稳却后期专家固化：从 Router Temperature 到 Entropy Floor 的工程实战

news 2026/7/27 0:52:43

🌡️ 温度一降，loss 很顺，专家却慢慢冻住

很多团队做 MoE 训练时，最先想动的旋钮就是router temperature。📌 温度一降，路由更尖、单步抖动更小，前期loss也更顺。问题是，前 5% 训练步顺，不代表后面更稳。后面最常见的，不是训练崩掉，而是头部专家越来越忙，尾部专家越来越闲，长尾任务和稀有领域样本先退化。

图 1：前稳后僵

更麻烦的是，这类问题容易被平均指标遮住。⚠️ 总体loss、吞吐和显存都可能正常；先掉的往往是冷门语言、复杂工具调用和稀疏问答。等团队发现模型开始反复依赖那几个老专家时，路由偏置往往已被动量和容量限制一起放大，很难靠补训救回。

🧩 真正被关掉的，不是抖动，而是探索空间

MoE 路由的本质不是简单分流，而是在训练早期保留试错空间。✅ 温度降得太快，softmax会过早把流量锁进少数高分专家，短期像在降噪，长期却会冻结分工。头部专家拿到更多梯度，分数继续抬高；尾部专家样本更少，后面即使回调温度，模型也不愿重新探索。

路由策略	前期现象	训练后段风险
固定高温`1.0`	抖动较大，收敛略慢	专家活性较高，但吞吐不稳
快速降到`0.2`	`loss`很顺，负载更集中	专家固化，长尾样本掉点
退火 + Entropy Floor	前期略有波动	分工稳定，尾部专家能持续学习

图 2：路由变尖，分工未必更健康

不少团队把希望压在aux loss或z-loss上，以为继续推均衡损失就能把专家拉开。🔍 但当温度已把候选空间压窄时，均衡项通常只是在有限通道里挪流量，不是在恢复探索。负载更整齐，不代表新专家真学到新模式。

🛠️ 更稳的做法，是退火温度但保留一层 Entropy Floor

更可靠的方案，是把温度当成调度器而不是常量。💡 前段用较高温度保留试错，中段再缓慢退火，但给每层路由留一条entropy floor；平均熵跌破阈值就停降，必要时小幅回弹。目标不是绝对均匀，而是保住尾部专家的曝光。

defrouter_temperature(step,warmup_steps,base_temp,min_temp,entropy,floor):ifstep<warmup_steps:temp=base_tempelse:decay=min((step-warmup_steps)/4000,1.0)temp=base_temp-decay*(base_temp-min_temp)# 熵低于阈值时停止继续尖锐化，避免专家过早固化ifentropy<floor:temp=max(temp,min_temp+0.15)returntemp

图 3：退火叠加熵下限，更稳

实践里更值得盯的，不是谁最忙，而是活性是否持续收缩。📊 可以同时记录每层路由熵、专家负载p95/p50、尾部 20% 专家样本占比，再和领域切片准确率一起看。一组 32 专家实验里，快速降温方案的总体loss只好看了0.03，但尾部专家样本占比从18%掉到7%，技术问答切片准确率反而回落2.6个点。