当前位置: 首页 > news >正文

小米开源MiMo-V2.5和Pro模型:高效、低成本,赋能商业级AI应用!

今天,小米开源了 MiMo-V2.5 和 MiMo-V2.5-Pro 两款模型:MiMo-V2.5 基础模型提供原生多模态能力,而 MiMo-V2.5-Pro 则是专门为“长周期一致性”和复杂软件工程设计的。

小米采用了宽松、对企业友好的 MIT License,这意味着模型适合被用于商业应用的生产环境。用户可以按需修改模型,并根据自身需要,在本地或虚拟私有云上运行。

在 GDPVal-AA(Elo)基准测试中,Pro 模型取得了 1581 分,超过了 Kimi K2.6 和 GLM 5.1 等竞争对手。

小米还进一步公布了 V2.5-Pro 自动完成若干高复杂度任务的数据:

  • 用 Rust 实现 SysY 编译器:模型从零开始实现了一个完整编译器,包括 lexer、parser 和 RISC-V 汇编后端,用时 4.3 小时。整个过程横跨 672 次工具调用,在隐藏测试集中取得了 233/233 的满分。这个任务通常需要计算机科学专业学生花费数周时间完成。
  • 全功能视频编辑器:模型用时 11.5 小时,进行了 1868 次工具调用,最终生成了一个 8192 行的桌面应用,具备多轨时间线和导出流水线。
  • 模拟 EDA 优化:在一项研究生级别的工程任务中,模型优化了 TSMC 180nm 工艺下的 Flipped-Voltage-Follower(FVF-LDO)稳压器。通过不断迭代 ngspice 仿真循环,模型将线性调整率等指标相较初始尝试提升了 22 倍。

小米用这些实验来凸显 V2.5-Pro 的一种 “harness awareness”,也就是“脚手架意识”。模型会主动管理自己的记忆,并塑造自身上下文,以便在数千次连续工具调用中维持一致性。

拼 token 效率,

但 DeepSeek 价格依然最能打

根据小米公布的基准测试,这些模型被认为是目前适合 agentic “claw” 任务的高效模型之一。

所谓 “claw” 任务,指的是为 OpenClaw、NanoClaw、Hermes Agent 这类系统提供支持。用户可以通过第三方消息应用直接与这些智能体沟通,让它们代替人类用户去完成任务,比如制作和发布营销内容、运营账号、整理邮件、安排日程等等。

随着 OpenClaw 等被广泛应用,token 消耗量也迅速爆发,越来越多服务开始转向按使用量计费。这时,“为用户省钱”这一点变得非常关键。

微软的 GitHub Copilot 今天宣布正在转向基于用量的计费方式,也就是按照人类用户实际消耗的每个 token 收费,而不是像 Anthropic 那样施加速率限制,或者像 OpenAI 那样提供“自助餐式”的无限量订阅。这让更多人意识到,AI 推理补贴时代结束了。

过去大家一个月用 20 美元、100 美元、200 美元就能跑大量 Claude、OpenAI 高端模型完成工作,本就不可能长期持续。有用户直言,这很像 ZIRP 时代互联网公司的增长策略:先烧钱补贴、快速获客,等用户习惯和粘性形成后,再开始正式变现。

而对于用户来说,现在编程成本从固定订阅变成不确定的 token 消耗,这个账可能越来越难算。 Agent 编程不是普通聊天,真实成本来自长上下文、反复工具调用、缓存命中率和模型倍率等。

这个背景下,小米为这些模型提供了相当有竞争力的价格,覆盖国内和国际市场。

对海外开发者来说,高性能的 MiMo-V2.5-Pro 在最高 256K 上下文窗口内,缓存未命中时每百万输入 token 价格为 1.00 美元,输出价格为 3.00 美元。对于 256K 到 1M token 之间的超长上下文任务,价格会翻倍:输入为 2.00 美元,输出为 6.00 美元。

单纯模型定价角度看,国内模型横向比较时,MiMo 价格并不便宜。

部分模型海内外价格不完全统计,来源:AI 前线

不过,实际的整体使用价格还是要结合 token 效率来看。Artificial Analysis 之前的测评显示,在同一套 Intelligence Index 评测中,不同模型的 token 消耗差异巨大。DeepSeek V4 Flash、GPT-5.4 mini、Claude Sonnet 4.6 等模型动辄消耗 2 亿级输出 token,且大部分是推理 token;而 MiMo-V2.5-Pro 约为 9200 万,GPT-5.5 xhigh 约为 7500 万,Gemini 3.1 Pro Preview 甚至只有 5700 万。

而从小米发布的 ClawEval 基准测试图也可以看到,MiMo-V2.5 和尤其是 Pro 版本,在完成基准测试中的 claw 任务时表现很强,同时消耗的 token 又最少。

根据测试,在 ClawEval 上,V2.5-Pro 以每条轨迹约 7 万 token 的消耗,取得了 64% 的 Pass^3 成绩。而在能力水平相近的情况下,这比 Claude Opus 4.6、Gemini 3.1 Pro 和 GPT-5.4 少用了大约 40% 到 60% 的 token。

“MiMo V2.5 Pro 有一点很不错:它似乎是目前 token 效率最高的开源模型。它会思考,但不会总是陷入那种很长的“等等,好像不对”的循环。很喜欢这一点。”有网友评价道。

“更高的智能,并不只是拿到更高的分数。它还意味着,用更少的 token 达到同样的能力水平。”官方表示。值得注意的是,小米大模型负责人罗福莉就曾直言大模型公司“价格战是陷阱”。

她认为,如果用户把精力浪费在低质量的 Agent 框架、极不稳定且缓慢的推理服务、以及为降本而被迫降级的模型上,最终发现自己仍然什么都做不成,这对用户体验和留存率来说,就是一个恶性循环。而真正的出路不是更便宜的 token,而是协同进化,即“更高 token 效率的 Agent 框架”叠加“更强大高效的模型”。

不过,小米当前模型定价依然处于较低位置。小米所有模型现在还限时免收缓存写入费用,同时整个 MiMo-V2.5-TTS 套件也完全免除费用,其中包括专门的语音克隆和语音设计功能。这种定价逻辑显然是为了加速从简单聊天应用,转向持久、长周期智能体的过程,后者可以以传统前沿模型小部分的成本运行。

此外,小米还推出了重新设计后的 “Token Plan”,目前分为四档:

  • Lite “Starter Pack” 提供 7.2 亿 credits,年费 63.36 美元。
  • Standard 档提供 24 亿 credits,年费 168.96 美元。
  • Pro 档提供 84 亿 credits,年费 528.00 美元,面向企业使用场景。
  • Max 档面向高强度编码爱好者,提供 192 亿 credits,年费 1056.00 美元。

除了 credit 配额外,所有套餐还包括更优惠的 API 价格、离峰调用 20% 折扣,以及对 Cursor、Zed、Claude Code 等热门编码工具的 “Day-0” 支持。

此外,开源的同时,罗福莉宣布提供 100 万亿免费 token,目前已经有用户晒出入选邮件。

网友评价

当前看,小米模型获得了一些不错的评价。

“这个模型太棒了,是我目前最喜欢的,比我使用的 Kimi 2.6 和 GLM 都好。”网友“Someone1Somewhere1”表示。

该开发者介绍,自己在工作和个人爱好上都会用到它们。“工作方面主要是做数据分析、整理用于演示文稿的数据,包括字体排版,以及在大量给定数据中查找一些小众信息。我个人爱好游戏开发。这方面包括用 Python 写代码、处理一些复杂数学问题、进行创意写作,分析我自己写下的大量概念、技能设定和主题,然后帮我根据特定素材进一步组织和打磨,比如宗教礼仪、古代神话、民间传说、creepypasta 这类内容。”

不过,有用户指出评价是“绝对不算出色”,MiMo-V2.5 Pro 思考时间太长了。

还有开发者表示,“DeepSeek 也有它的用途,但它并不能满足我的需求。我用 Mimo 进行构思、研究、假设检验,以及梳理要开发的内容和整体思路。然后,在实现阶段,我使用 GLM 和 Kimi。Mimo 非常擅长实施前的沟通,集思广益并对想法进行压力测试。”

都是 MoE 架构,但训练路线不同

MiMo-V2.5 的核心稀疏专家混合架构,总参数规模达到 310B,激活参数 15B。

V2.5 被训练来做跨模态推理,通过平衡局部注意力和全局注意力来维持多模态感知能力。

根据小米博客文章,MiMo-V2.5 遵循了严格的五阶段演进路线:

  • 文本预训练,基于 48 万亿 token 构建庞大的语言主干;
  • Projector Warmup,将自研音频和视觉编码器与语言核心对齐;
  • 多模态预训练,在高质量跨模态数据上进行规模化训练;
  • Agentic 后训练,逐步将上下文窗口从 32K 扩展到 1M token;
  • RL 和 MOPD:使用强化学习和多模态偏好优化来提升真实世界推理和感知能力。

V2.5-Pro 则是一个总参数规模为 1.02 T 的 MoE 模型,活跃参数为 42B。它采用了 MiMo-V2-Flash 中引入的混合注意力架构和 3 层多 Token 预测(MTP)设计,支持最高 100 万 token 的上下文长度。

V2.5-Pro 采用混合注意力架构,局部滑动窗口注意力和全局注意力以 6:1 的比例交错排列,窗口大小为 128 个 token。

这种设计可以在通过可学习的 attention sink bias 维持长上下文性能的同时,将 KV-cache 存储量减少近 7 倍。V2.5-Pro 可以“快速扫过”绝大部分上下文,同时对当前目标最相关的 15% 数据施加高密度注意力。对于调试大型代码仓库等任务来说,这是一个关键特性。

不过,与同样使用混合注意力机制的 DeepSeek-V4 比,V2.5-Pro 更接近主流推理框架可部署方案,架构创新相对更工程化,attention 压缩不如 DeepSeek 激进。DeepSeek-V4 更偏自研系统栈和底层 kernel 优化,系统复杂度高、部署门槛可能更高。

MTP 方面,V2.5-Pro 还配备三个使用 dense FFN 的轻量级 MTP 模块。这使得推理阶段的输出速度提升至约 3 倍,同时也有利于加速强化学习训练中的 rollout。

MiMo-V2.5-Pro 使用 27T tokens 进行训练,采用 FP8 混合精度和原生 32K 序列长度,上下文窗口最高支持 100 万 tokens。其训练重点不再是感官对齐,而是转向扩展后训练计算量。这一过程旨在注入 “harness awareness”,即“脚手架意识”。模型会被专门训练,以便在 Claude Code 或 OpenCode 这类自主智能体脚手架中,管理自己的记忆和上下文。

最后,虽然两款模型都会经历强化学习(RL)和多模态偏好优化(MOPD),但这些阶段的目标不同:

  • 对于 MiMo-V2.5,RL 阶段用于加强感知能力和多模态推理能力。
  • 对于 MiMo-V2.5-Pro,RL 更聚焦于 agentic 场景中的指令遵循,确保模型能够遵守深藏在超长上下文中的细微要求,并在自主执行过程中从错误中优雅恢复。这带来了 Pro 模型的“自我纠错”纪律性。

在实际体验中,有用户指出,同样是一份数据处理脚本的审查,有一处不会报错的隐秘 bug,两个模型都查不出来,但是 GPT 和 Claude 都能够稳定地发现它。不过 DeepSeek v4 Pro 告诉它检查哪个部分后,它能够发现问题,MIMO V2.5 Pro 做不到,需要明确的错误反馈。

“我感觉 MIMO 的这个模型推理预算被限制很厉害,又或者可能没有做过太多长链推理的训练。没有明确的错误反馈,靠它自己凭空思考表现不太好。”该用户指出。

此外还有用户提到,在免费期过后,小米模型使用占比一直在下降,加上近期罗福莉露出频繁,“现在小米公司做的一切,感觉就是为了营销它的产品,它的 Token。”

说真的,这两年看着身边一个个搞Java、C++、前端、数据、架构的开始卷大模型,挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis,稳稳当当过日子。

结果GPT、DeepSeek火了之后,整条线上的人都开始有点慌了,大家都在想:“我是不是要学大模型,不然这饭碗还能保多久?”

我先给出最直接的答案:一定要把现有的技术和大模型结合起来,而不是抛弃你们现有技术!掌握AI能力的Java工程师比纯Java岗要吃香的多。

即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地!大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇!

这绝非空谈。数据说话

2025年的最后一个月,脉脉高聘发布了《2025年度人才迁徙报告》,披露了2025年前10个月的招聘市场现状。

AI领域的人才需求呈现出极为迫切的“井喷”态势

2025年前10个月,新发AI岗位量同比增长543%,9月单月同比增幅超11倍。同时,在薪资方面,AI领域也显著领先。其中,月薪排名前20的高薪岗位平均月薪均超过6万元,而这些席位大部分被AI研发岗占据。

与此相对应,市场为AI人才支付了显著的溢价:算法工程师中,专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%;产品经理岗位中,AI方向的产品经理薪资也领先约20%。

当你意识到“技术+AI”是个人突围的最佳路径时,整个就业市场的数据也印证了同一个事实:AI大模型正成为高薪机会的最大源头。

最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包【允许白嫖】:

  • ✅从入门到精通的全套视频教程
  • ✅AI大模型学习路线图(0基础到项目实战仅需90天)
  • ✅大模型书籍与技术文档PDF
  • ✅各大厂大模型面试题目详解
  • ✅640套AI大模型报告合集
  • ✅大模型入门实战训练

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(0基础到项目实战仅需90天)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤640套AI大模型报告合集

⑥大模型入门实战训练

👉获取方式:
有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

http://www.jsqmd.com/news/716671/

相关文章:

  • **WebSocket实战进阶:从基础通信到实时推送的全流程架构设计与代码实现**在现代Web应用中,**实
  • smolOS:ESP8266上的微型Linux命令行环境解析
  • 边缘设备垃圾检测:NAS优化与TinyML实践
  • 正向+反向+主从解析
  • STC12单片机唯一ID读取实战:三种方法对比与固件版本避坑指南
  • 骑友的修养从第一课开始。骑行,别指指点点,别当让人烦的老师。
  • B站缓存视频转换终极指南:3步实现m4s到MP4的快速无损转换
  • DS4Windows:Windows平台游戏手柄兼容性终极解决方案
  • YOLO26创新改进 | BMVC 2024 | 独家特征融合Neck改进篇 | MASAG多尺度自适应空间注意力门控融合,选择性地突出空间相关特征,助力小目标检测、医学图像分割任务有效涨点
  • 低延迟混合滤波算法原理与优化实践
  • ComfyUI-Impact-Pack:AI图像增强与语义分割的终极工具包
  • 从零启动大模型本地微调,深度解析HuggingFace Transformers+PEFT+Unsloth三剑客协同机制
  • 笔记本CPU温度多少正常?一文看懂正常范围+实时查看方法
  • Jetson AGX Orin升级Jetpack 6.0后,如何优雅地自定义设备树(以关闭PCIe IOMMU为例)
  • 063-基于51单片机四路无线遥控开关【Proteus仿真+Keil程序+报告+原理图】
  • 星铁自动化终极指南:3步解放双手,让游戏自己玩起来!
  • 终极指南:如何用AiZynthFinder快速规划复杂分子的AI合成路线
  • 【DOA估计】基于均匀圆阵相干信号二维doa估计Matlab实现
  • Day07-RNN介绍
  • ARM FPGA硬件架构与工程实践详解
  • 从电路图到C代码:单片机P1口矩阵键盘扫描最直白的保姆级推导(附Proteus仿真)
  • YOLO26涨点改进 | ECCV 2024 | 独家创新-注意力改进篇| YOLO26引入AgentAttention代理注意力模块,减少计算复杂度,同时保留全局上下文建模能力,提高目标检测精度
  • 终极指南:如何使用Audio Slicer快速完成音频自动分割
  • 如何迁移单实例数据库到RAC架构_RMAN与Data Pump的实施方案
  • OpCore Simplify:智能配置黑苹果的终极解决方案
  • 【深度解析】AI Design-to-Code 工作流:从视觉概念到可运行前端原型
  • 【英一】考研英语一历年真题及答案解析PDF电子版(1980-2026年)
  • NVIDIA ACE技术如何革新游戏NPC交互体验
  • 5个简单步骤:用免费开源DDT4All实现专业汽车ECU诊断
  • Windows系统下MySQL 8.0.27安装卡在初始化?可能是计算机名惹的祸(附完整修复流程)