当前位置：首页 > news >正文

标题：MiMo-V2-Flash杀疯了：150 tokens/s，小米开源AI王炸

news 2026/3/26 20:32:08

就在刚刚，小米大模型Core团队直接甩出王炸。

MiMo-V2-Flash，一个名字里写着"快"的开源模型，却在性能上叫板了当前最强的几个对手。

当速度遇上性能，会发生什么？

在AI圈，一直有个"鱼和熊掌"的难题：要快，就得牺牲能力；要强，就得接受等待。

但MiMo-V2-Flash似乎想打破这个魔咒。

309B总参数，15B激活参数——这个MoE架构的设计，让它在保持顶尖性能的同时，实现了150 tokens/s的输出速度。

什么概念？你刚点完发送，它的回复已经铺满屏幕了。

技术亮点：让"快"有了新解法

MiMo-V2-Flash的秘密武器是混合注意力机制。

简单说，它把5/6的注意力计算交给轻量级的"窗口注意力"，只保留1/6处理全局信息。这种"好钢用在刀刃上"的设计，让它在256K超长上下文的处理上，依然快得飞起。

成绩单：用数据说话

通用基准：直接对标DeepSeek-V3.2，但速度快了好几个数量级
编程能力：SWE-Bench Verified 73.4%，多语言版本71.7%——开源模型新SOTA
Day-0支持：发布即部署，lmsysorg已就位

真正的意义：Agentic AI的"心脏"

小米特别强调，这是"为Agentic AI设计的"。

这意味着MiMo-V2-Flash不只是聊天机器人，它能作为智能体的核心引擎，处理复杂任务链、实时决策、多步骤推理——在这些需要快速、连续、大量调用的场景里，它的速度优势会被无限放大。

一句话总结

小米用MiMo-V2-Flash证明：开源模型不必在"快"和"强"之间妥协。

150 tokens/s的速度 + 前沿的性能 = 一个真正可用的AI引擎

想试试？

模型下载：huggingface.co/XiaomiMiMo/MiMo-V2-Flash
技术报告：github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf
AI体验：aistudio.xiaomimimo.com

查看全文

http://www.jsqmd.com/news/107452/

5款AI写论文神器大比拼：虎贲等考AI凭什么C位出道？

EmotiVoice支持语音情感强度API动态调节

shell脚本-read-输入

5 款 AI 写论文哪个好？深度横评后，才发现虎贲等考 AI 是学术圈隐藏的 “六边形战士”！

高效部署EmotiVoice镜像，快速接入GPU算力加速语音生成

虎贲等考 AI：不打扰你的原创，只照亮学术征途，陪你探索每一寸知识边疆

数据治理如何真正落地？这8大案例的破局之战，就是你的避坑指南

Python-while循环-99乘法表

让AI语音成为桥梁，而不是替代

EmotiVoice情感分类模型训练过程全公开

EmotiVoice支持自定义情感标签训练，拓展应用场景

Nginx缓存优化终极指南：快速提升网站性能300%

EmotiVoice支持中文普通话情感合成，语调自然流畅

DownKyi终极指南：B站视频下载与批量处理完整教程

构建AI持久记忆：知识图谱存储技术深度解析

3步搞定DuckDB Java连接：从零到一的实战指南

EmotiVoice在安静/嘈杂环境下的播放效果

BadDiffusion复现教程

EmotiVoice在直播场景的应用设想：实时生成主播语音

Chroma.js终极指南：如何用简单API解决复杂色彩空间转换问题

FusionCompute 8.0实验环境搭建实战指南

JupyterHub配置实战：从零到精通的5个关键步骤

Lemonade：本地大语言模型服务的终极指南

科技不应逾越人性底线：我们的立场声明

Avue.js 7天精通实战手册：从零构建企业级数据管理平台

深度解析Rust跨平台性能测量：从架构到实战的全面指南

Lime开源编辑器深度体验：从Sublime Text用户到贡献者的完整解析

Home Assistant Mini Graph Card 终极指南：简单快速的可视化图表卡片安装教程

EmotiVoice语音合成引擎的灰度发布策略设计

trt_pose完整入门指南：快速掌握实时姿态估计算法

当速度遇上性能，会发生什么？

技术亮点：让"快"有了新解法

成绩单：用数据说话

真正的意义：Agentic AI的"心脏"

一句话总结

相关文章：