当前位置：首页 > news >正文

机器学习笔记(14): MoE Gating Networks

news 2026/4/30 19:03:01

[[MoE Sparse-Gateway.pdf]]

主流的 MoE 范式。

模型的输出是：

\[y = \sum G(x)_i E_i(x) \]

其中 \(E_i(x)\) 是专家模型，\(G(x)\) 是门控网络的结果，具体来说：

\[\begin{aligned} G(x) &= {\rm softmax}( {\rm top-k}(H(x), k)) \\ H(x) &= W_g x + {\rm standard norm}() \cdot {\rm softplus}(W_{noise} x) \end{aligned} \]

由于门控网络存在

马太效应（少数专家被过度选择并自我强化）
在分布式环境下，若某些专家过载（接收过多样本），其所在设备会出现内存不足或计算拥塞，而其他设备空闲，集群利用率崩溃。
所以损失函数是这样设计的：

\[J(\theta) = Loss + \omega_{importance} \cdot CV({\rm Importance}(X)) + \omega_{load} \cdot CV({\rm Load}(X)) \]

其中 \(X\) 表示一个 batch 的数据，\(CV: {\mathbb R}^n \to {\mathbb R}\) 表示变异系数（Coefficient of Variation，标准差除以均值）：

\[\begin{aligned} e &= \text{number of experts} \\ {\rm Importance} (X) &= \sum_{x \in X} G(x) \in {\mathbb R}^{e} \\ P(x, i) &= P\Big[H(x)_i \gt {\rm kth\_excluding}(H(x), k, i)\Big] \\ \implies P(x, i) &= \Phi \left(\frac {W_g x - {\rm kth\_excluding}(H(x), k, i)} {{\rm softplus}(W_{noise} x)} \right) \end{aligned} \]

其中 \(\Phi\) 是 CDF（Cumulative Distribution Function，累积分布函数）描述的是随机变量小于等于某个值的概率。将离散的"是否在前 k 名"转化为一个光滑、可微的概率值。这里 \(Z \sim {\mathcal N}(0, 1)\)：

\[\Phi(z) = P(Z < z) = \frac 1 {\sqrt {2\pi} }\int_{-\infty}^z e^{t^2 / 2} {\rm d} t \]

http://www.jsqmd.com/news/726969/

相关文章：

铲屎官选粮避坑难？软便、不长肉、怕劣质粮，3 款优质猫粮实测，帮铲屎官选对适配口粮 - 品牌策略主理人

反激变换器同步整流控制原理

潮乎盲盒H5商城系统源码｜全新UI界面支持快捷注册登录｜Laravel+UniApp全栈开源

Magnet2Torrent终极指南：将磁力链接永久保存为种子文件的简单方法

BarrageGrab：企业级直播数据采集架构设计与工程实践

长春餐饮门店工装好评榜：5家本地实力服务商盘点 - 奔跑123

2026寿光中考高考全日制机构排行适配不同提分需求 - 奔跑123

矿影智测版｜矿山自动化测绘，省时精准更省心！

如何快速检测微信单向好友？WechatRealFriends帮你发现谁悄悄删除了你

金融数据风控：股票、基金净值实时抓取如何做到“0封禁”

SteamAutoCrack：如何用3步自动化工具解除Steam游戏DRM限制？

权威发布：2026年卫生高级职称考试押题预测机构口碑排行榜 - 医考机构品牌测评专家

2026寿光中考高考全日制机构排行：提分实力与服务全对比 - 奔跑123

小爱音箱彻底告别VIP！NAS+AI部署本地曲库，保姆级教程！

3分钟快速掌握PinWin：Windows窗口置顶的终极解决方案

从‘对齐’到‘适配’：手把手教你为PCL点云配准定制加权FitnessScore（附C++代码）

AI规则构建引擎：用自然语言生成可执行业务逻辑的技术实践

047、Pandas数据清洗：处理缺失值与重复值

QTTabBar终极指南：Windows资源管理器标签页功能完全攻略

如何快速解锁网盘全速下载：LinkSwift直链助手完整指南

西工大计算机801/871专业课二选一？过来人用血泪史告诉你：操作系统是保底，数据结构慎选！

2026年物流园重卡充电桩十大品牌横评：补能效率、并发能力与运维成本全对比 - 科技焦点

2026寿光中考高考全日制机构排行基于提分实效与本地适配 - 奔跑123

群晖NAS百度网盘套件终极指南：简单三步实现云端文件同步

3分钟解锁Windows新体验：告别模拟器，直接运行安卓应用

共享设备无人管理程序，颠覆老板收租，设备规则上链，用户自治运维，收益均分。

使用 Node.js 快速构建基于 Taotoken 多模型的内容生成服务

osgEarth深度分析（4）：矢量数据与样式系统：从要素到几何体的符号化渲染

3分钟掌握FF14动画跳过插件：告别副本等待，效率提升50%

库尔勒改灯首选｜立体感灯光升级库尔勒本地最值得信赖的改灯老店，合规专业用专业定义行业标杆 - Reaihenh