当前位置: 首页 > news >正文

小米新开源 MiMo-V2-Flash:稀疏注意力+强化学习超越DeepSeek-V3.2?

摘要

在追求 AGI 的道路上,如何在保持高性能推理能力的同时,极致压缩计算成本与显存占用?小米 LLM-Core 团队最新发布的MiMo-V2-Flash给出了一个新的角度和方案。这款拥有 309B 参数(激活参数仅 15B)的 MoE 模型,通过混合滑动窗口注意力(Hybrid SWA)轻量级多 Token 预测(MTP)以及多教师在线蒸馏(MOPD),在推理效率和复杂任务处理能力上比肩 DeepSeek-V3.2 等顶尖开源模型。


1. 引言:突破“不可能三角”?

长上下文大语言模型(LLM)长期面临一个“不可能三角”:长窗口(Long Context)、**高智能(High Intelligence)低延迟(Low Latency)**往往难以兼得。全注意力机制(Full Attention)的O(L2)O(L^2)O(L2)复杂度让长文推理步履维艰,而传统的稀疏化手段往往以牺牲模型智力为代价。

MiMo-V2-Flash 的核心突破在于:

  1. 架构侧:利用带“可学习 Sink Bias”的滑动窗口注意力,将 KV Cache 和计算量降低 6 倍。
  2. 推理侧:利用 MTP 模块实现无损投机采样,大幅提升 Decoding 速度。
  3. 训练侧:首创 MOPD 范式,解决了强化学习(RL)中“跷跷板效应”导致的通用能力退化问题。

2. 架构设计:极致效率的追求

MiMo-V2-Flash 基于 Transformer 架构,但在 Attention 和 FFN 层进行了激进的改造。

2.1 混合滑动窗口注意力 (Hybrid SWA)

为了解决长文本下的 KV Cache 瓶颈,MiMo-V2-Flash 并没有选择完全的线性 Attention,而是采用了一种5:1 的混合策略

  • 结构:每 6 层为一个 Block,其中前 5 层使用滑动窗口注意力(Sliding Window Attention, SWA),第 6 层使用全局注意力(Global Attention, GA)。
  • 参数:滑动窗口大小W=128W=128W=128。这是一个极小的窗口(相比于常见的 4K 或 8K),意味着绝大多数层只关注极局部的上下文。
核心创新:可学习的 Attention Sink Bias

传统的 SWA 在堆叠多层后,长距离信息容易丢失。DeepSeek 等模型通过 MLA 缓解此问题,而 MiMo-V2-Flash 选择了一种更轻量的方案:Learnable Attention Sink Bias

在 SWA 层中,模型显式地引入一个可学习的偏置项sink∈R\text{sink} \in \mathbb{R}sinkR,用于调节 Softmax 的分母。这允许模型在不需要关注局部窗口内的任何 Token 时,将注意力权重“倾泻”到 Sink 上,从而保留全局语义的聚合能力。

数学表达
对于 Tokeniiijjj,注意力 Logit 计算如下:
aij=qikjTd a_{ij} = \frac{q_i k_j^T}{\sqrt{d}}aij=dqikjT

http://www.jsqmd.com/news/107265/

相关文章:

  • 五大Linux壁纸工具推荐:让桌面告别单调的终极指南
  • 揭秘DeepSeek-V3 KV缓存:让AI对话如丝般顺滑的秘密武器
  • Magenta Studio:AI音乐创作的终极指南与深度技术解析
  • YOLOv9模型评估终极指南:新手也能快速掌握的完整流程
  • LSPosed框架升级攻略:从传统Xposed到现代钩子开发的平滑过渡
  • Electron API演示应用中文版:从入门到精通的完整指南
  • 6、App Volumes软件安装与配置全流程指南
  • AI驱动的一键式文档转换工具:让PDF转Markdown变得如此简单
  • AffectNet表情识别数据集:完整下载与使用指南
  • NanoPi R5S终极配置指南:释放千兆路由全部潜能
  • Transformer Lab 完整指南:轻松实验大型语言模型的终极解决方案
  • 7大KV缓存优化技巧:让llama.cpp推理速度提升300%的秘密
  • day26函数专题1
  • nnU-Net:基于unet的医学图像分割自适应框架,自动配置超参数与结构-k学长深度学习专栏
  • 它是 Copilot 的“激进版”,也是 Cursor 的最强平替:Roo Code 深度上手指南(深度解析 + API配置)
  • kkFileView移动端深度适配指南:打造极致预览体验
  • EmotiVoice与Unity引擎结合:游戏语音实时生成
  • 掌握GeoTools:打造专业级GIS开发的完整解决方案
  • Fun-ASR - 多语言多方言的高精度语音识别软件 支持50系显卡 一键整合包下载
  • TimelineJS时间轴神器:零基础打造零食文化演变史
  • 充电mos是什么东西啊
  • 浏览器密码管理扩展插件:Browserpass
  • Obsidian网页剪藏完整指南:从零开始的高效知识管理方案
  • HAL库开发环境搭建
  • K8S-namespace资源对象
  • 手把手教你OpenWrt刷机:让老旧路由器变身网络神器
  • 数据仓库测试方法论:确保大数据质量的完整方案
  • K8S-Deployment资源对象
  • 18、量子算法在期权定价中的应用
  • day27