当前位置：首页 > news >正文

小米新开源 MiMo-V2-Flash：稀疏注意力+强化学习超越DeepSeek-V3.2？

news 2026/7/6 8:52:46

摘要

在追求 AGI 的道路上，如何在保持高性能推理能力的同时，极致压缩计算成本与显存占用？小米 LLM-Core 团队最新发布的MiMo-V2-Flash给出了一个新的角度和方案。这款拥有 309B 参数（激活参数仅 15B）的 MoE 模型，通过混合滑动窗口注意力（Hybrid SWA）、轻量级多 Token 预测（MTP）以及多教师在线蒸馏（MOPD），在推理效率和复杂任务处理能力上比肩 DeepSeek-V3.2 等顶尖开源模型。

1. 引言：突破“不可能三角”？

长上下文大语言模型（LLM）长期面临一个“不可能三角”：长窗口（Long Context）、**高智能（High Intelligence）与低延迟（Low Latency）**往往难以兼得。全注意力机制（Full Attention）的O(L2)O(L^2)O(L2)复杂度让长文推理步履维艰，而传统的稀疏化手段往往以牺牲模型智力为代价。

MiMo-V2-Flash 的核心突破在于：

架构侧：利用带“可学习 Sink Bias”的滑动窗口注意力，将 KV Cache 和计算量降低 6 倍。
推理侧：利用 MTP 模块实现无损投机采样，大幅提升 Decoding 速度。
训练侧：首创 MOPD 范式，解决了强化学习（RL）中“跷跷板效应”导致的通用能力退化问题。

2. 架构设计：极致效率的追求

MiMo-V2-Flash 基于 Transformer 架构，但在 Attention 和 FFN 层进行了激进的改造。

2.1 混合滑动窗口注意力 (Hybrid SWA)

为了解决长文本下的 KV Cache 瓶颈，MiMo-V2-Flash 并没有选择完全的线性 Attention，而是采用了一种5:1 的混合策略。

结构：每 6 层为一个 Block，其中前 5 层使用滑动窗口注意力（Sliding Window Attention, SWA），第 6 层使用全局注意力（Global Attention, GA）。
参数：滑动窗口大小W=128W=128W=128。这是一个极小的窗口（相比于常见的 4K 或 8K），意味着绝大多数层只关注极局部的上下文。

核心创新：可学习的 Attention Sink Bias

传统的 SWA 在堆叠多层后，长距离信息容易丢失。DeepSeek 等模型通过 MLA 缓解此问题，而 MiMo-V2-Flash 选择了一种更轻量的方案：Learnable Attention Sink Bias。

在 SWA 层中，模型显式地引入一个可学习的偏置项sink∈R\text{sink} \in \mathbb{R}sink∈R，用于调节 Softmax 的分母。这允许模型在不需要关注局部窗口内的任何 Token 时，将注意力权重“倾泻”到 Sink 上，从而保留全局语义的聚合能力。

数学表达：
对于 Tokeniii和jjj，注意力 Logit 计算如下：
aij=qikjTd a_{ij} = \frac{q_i k_j^T}{\sqrt{d}}aij=dqikjT

http://www.jsqmd.com/news/107265/

相关文章：

五大Linux壁纸工具推荐：让桌面告别单调的终极指南

揭秘DeepSeek-V3 KV缓存：让AI对话如丝般顺滑的秘密武器

Magenta Studio：AI音乐创作的终极指南与深度技术解析

YOLOv9模型评估终极指南：新手也能快速掌握的完整流程

LSPosed框架升级攻略：从传统Xposed到现代钩子开发的平滑过渡

Electron API演示应用中文版：从入门到精通的完整指南

6、App Volumes软件安装与配置全流程指南

AI驱动的一键式文档转换工具：让PDF转Markdown变得如此简单

AffectNet表情识别数据集：完整下载与使用指南

NanoPi R5S终极配置指南：释放千兆路由全部潜能

Transformer Lab 完整指南：轻松实验大型语言模型的终极解决方案

7大KV缓存优化技巧：让llama.cpp推理速度提升300%的秘密

day26函数专题1

nnU-Net：基于unet的医学图像分割自适应框架，自动配置超参数与结构-k学长深度学习专栏

它是 Copilot 的“激进版”，也是 Cursor 的最强平替：Roo Code 深度上手指南（深度解析 + API配置）

kkFileView移动端深度适配指南：打造极致预览体验

EmotiVoice与Unity引擎结合：游戏语音实时生成

掌握GeoTools：打造专业级GIS开发的完整解决方案

Fun-ASR - 多语言多方言的高精度语音识别软件支持50系显卡一键整合包下载

TimelineJS时间轴神器：零基础打造零食文化演变史

充电mos是什么东西啊

浏览器密码管理扩展插件：Browserpass

Obsidian网页剪藏完整指南：从零开始的高效知识管理方案

HAL库开发环境搭建

K8S-namespace资源对象

手把手教你OpenWrt刷机：让老旧路由器变身网络神器

数据仓库测试方法论：确保大数据质量的完整方案

K8S-Deployment资源对象

18、量子算法在期权定价中的应用