当前位置: 首页 > news >正文

标题:MiMo-V2-Flash杀疯了:150 tokens/s,小米开源AI王炸

就在刚刚,小米大模型Core团队直接甩出王炸。

MiMo-V2-Flash,一个名字里写着"快"的开源模型,却在性能上叫板了当前最强的几个对手。

当速度遇上性能,会发生什么?

在AI圈,一直有个"鱼和熊掌"的难题:要快,就得牺牲能力;要强,就得接受等待。

但MiMo-V2-Flash似乎想打破这个魔咒。

309B总参数,15B激活参数——这个MoE架构的设计,让它在保持顶尖性能的同时,实现了150 tokens/s的输出速度。

什么概念?你刚点完发送,它的回复已经铺满屏幕了。

技术亮点:让"快"有了新解法

MiMo-V2-Flash的秘密武器是混合注意力机制

简单说,它把5/6的注意力计算交给轻量级的"窗口注意力",只保留1/6处理全局信息。这种"好钢用在刀刃上"的设计,让它在256K超长上下文的处理上,依然快得飞起。

成绩单:用数据说话

  • 通用基准:直接对标DeepSeek-V3.2,但速度快了好几个数量级
  • 编程能力:SWE-Bench Verified 73.4%,多语言版本71.7%——开源模型新SOTA
  • Day-0支持:发布即部署,lmsysorg已就位

真正的意义:Agentic AI的"心脏"

小米特别强调,这是"为Agentic AI设计的"。

这意味着MiMo-V2-Flash不只是聊天机器人,它能作为智能体的核心引擎,处理复杂任务链、实时决策、多步骤推理——在这些需要快速、连续、大量调用的场景里,它的速度优势会被无限放大。

一句话总结

小米用MiMo-V2-Flash证明:开源模型不必在"快"和"强"之间妥协。

150 tokens/s的速度 + 前沿的性能 = 一个真正可用的AI引擎


想试试?

  • 模型下载:huggingface.co/XiaomiMiMo/MiMo-V2-Flash
  • 技术报告:github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf
  • AI体验:aistudio.xiaomimimo.com
http://www.jsqmd.com/news/107452/

相关文章:

  • 5款AI写论文神器大比拼:虎贲等考AI凭什么C位出道?
  • EmotiVoice支持语音情感强度API动态调节
  • shell脚本-read-输入
  • 5 款 AI 写论文哪个好?深度横评后,才发现虎贲等考 AI 是学术圈隐藏的 “六边形战士”!
  • 高效部署EmotiVoice镜像,快速接入GPU算力加速语音生成
  • 虎贲等考 AI:不打扰你的原创,只照亮学术征途,陪你探索每一寸知识边疆
  • 数据治理如何真正落地?这8大案例的破局之战,就是你的避坑指南
  • Python-while循环-99乘法表
  • 让AI语音成为桥梁,而不是替代
  • EmotiVoice情感分类模型训练过程全公开
  • EmotiVoice支持自定义情感标签训练,拓展应用场景
  • Nginx缓存优化终极指南:快速提升网站性能300%
  • EmotiVoice支持中文普通话情感合成,语调自然流畅
  • DownKyi终极指南:B站视频下载与批量处理完整教程
  • 构建AI持久记忆:知识图谱存储技术深度解析
  • 3步搞定DuckDB Java连接:从零到一的实战指南
  • EmotiVoice在安静/嘈杂环境下的播放效果
  • BadDiffusion复现教程
  • EmotiVoice在直播场景的应用设想:实时生成主播语音
  • Chroma.js终极指南:如何用简单API解决复杂色彩空间转换问题
  • FusionCompute 8.0实验环境搭建实战指南
  • JupyterHub配置实战:从零到精通的5个关键步骤
  • Lemonade:本地大语言模型服务的终极指南
  • 科技不应逾越人性底线:我们的立场声明
  • Avue.js 7天精通实战手册:从零构建企业级数据管理平台
  • 深度解析Rust跨平台性能测量:从架构到实战的全面指南
  • Lime开源编辑器深度体验:从Sublime Text用户到贡献者的完整解析
  • Home Assistant Mini Graph Card 终极指南:简单快速的可视化图表卡片安装教程
  • EmotiVoice语音合成引擎的灰度发布策略设计
  • trt_pose完整入门指南:快速掌握实时姿态估计算法