当前位置: 首页 > news >正文

大模型推理引擎vLLM(13): 什么是MOE混合专家模型

文章目录

  • 1 视频1
  • 2 视频2
    • 2.1 MOE历史+介绍
    • 2.2 DeepSeekMOE
    • 2.3
  • 3 个人疑问
    • 3.1 疑问1:router是不是就类似一个线性层+softamx
    • 3.2 疑问2:经过不同experts之后的结果是简单求和吗
    • 3.3 疑问3:
  • 参考文献

abstract
router其实就是线性层+softmax

1 视频1

7分钟速通MoE

2 视频2

[EP07] 与DeepMind科学家畅聊MoE

2.1 MOE历史+介绍


2.2 DeepSeekMOE


最右边的图,这个shared Expert是永远被选中的,他是always on的。

2.3

3 个人疑问

3.1 疑问1:router是不是就类似一个线性层+softamx

这里的router其实就是一个线性层+softmax,就像个简单分类器一样,某个token进入到token之后相当于先做一个矩阵乘法,然后加一个softmax,这样就得到得分了,然后可以选择topk个专家。

3.2 疑问2:经过不同experts之后的结果是简单求和吗

我看结构图以为经过了不同专家之后的结果,就是经过了几个小的FFN的结果直接求和,但实际上是按照权重求和,正好前面router的时候不是求出来了每个专家对应的权重吗,所以这里正好是按照权重求和。

3.3 疑问3:

这里的MOE我最开始以为他是将一个大的FFN在计算的时候分成了几个小的FFN,但其实不是,他是在模型网络结构上就是有好几个并行的小ffn,比如其他网络可能是hidden_size是4096,然后FFN里面的维度是4*4096,然后MOE里面相当是这里并列有比如12个4096的小FFN,每次激活不同的小FFN去做计算。

参考文献

7分钟速通MoE
[EP07] 与DeepMind科学家畅聊MoE

http://www.jsqmd.com/news/405832/

相关文章:

  • 大模型推理引擎vLLM(14): 什么是MLA多头潜在注意力
  • 2026.2.23:AgentScope框架实战<一>:安装并使用agentscope
  • 【节点】[Matrix2x2节点]原理解析与实际应用
  • JDK下载,安装与配置
  • flex与bison学习之识别计算器的记号
  • flex与bison学习之简易计算器
  • flex与bison学习之一个简单的flex词法分析器
  • 2026年谷歌独立站多语种建站公司/服务商深度评测推荐:五强对比与中立对比助决策 - 深圳昊客网络
  • OpenClaw:2026年爆红的本地优先 AI 智能体引擎全解析
  • CrafterCMS 认证RCE漏洞利用 - Groovy沙箱逃逸 (CVE-2025-6384)
  • flex与bison学习之英式英语转换为美式英语
  • sql注入之文件读写
  • 从入门到实战:构建企业级交通实时路况监控系统的Python爬虫架构指南
  • DenseFramelet-DFD:基于密集框架小波变换和自适应阈值降噪的机械故障诊断方法(MATLAB)
  • 探索导弹六自由度运动模型及其MATLAB/Simulink实现
  • 总结了近期考MOS认证学员问的比较的问题
  • 题解:CF1210F2 Marek and Matching (hard version)
  • CF1322B
  • 2026年3月百度推广竞价广告开户代运营公司/服务商深度评测:深圳昊客网络 引领榜单 - 深圳昊客网络
  • 根脉与花开:AI元人文——中华文化思想在智能时代的原创性理论发展
  • AI Agent 框架探秘:拆解 OpenHands(7)--- Agent
  • 视频孪生之上:镜像视界矩阵视频融合驱动三维智慧交通升级——以重庆万州复杂立体交通场景为样本的统一空间坐标体系与跨摄像连续表达工程实践
  • 视频孪生之上 · 空间主权构建:镜像视界矩阵视频融合打造三维连续表达控制体系——基于统一坐标矩阵与动态修正机制的空间级主动感知与连续表达平台
  • 状压dp临行枚举类问题
  • 新的开始
  • CF1313D
  • 【Linux】进程地址空间的内核空间
  • [特殊字符] 基于YOLOv5/v8/v10的商超货架商品陈列面占比分析系统【完整源码+数据集】
  • JAVA WEB学习6
  • 【YOLO目标检测】基于YOLOv5/v8/v10的交通拥堵检测系统:从数据集构建到可视化界面全解析