讲真,看到小米和 TileRT 联合发的 MiMo-V2.5-Pro-UltraSpeed 挂在 HN 上 580 分、
423 条评论冲上来的时候,我第一反应是 —— 又一个营销稿?
我本来认为"1T 模型 + 1000 TPS"这事,硬件不堆点定制硅根本做不到。
你看 Groq 用 LPU、Cerebras 搞晶圆级,都是奔着把内存带宽做爆才把延迟压下来。
1T 这个规模,按理说 KV cache 本身就够呛,怎么可能在通用 8 卡服务器上跑出千 TPS?
结果我抽了个时间把 mimo.xiaomi.com 那篇 blog 通读了一遍,
看到三个数字的时候,沉默了。
第一个:1000+ TPS,峰值能摸到 1200,对比 Groq LPU 顶配 750 TPS、Cerebras 也只敢报 1T 以下模型。
而且是"标准的 8-GPU 商用节点",不是 wafer-scale 也不是片上 SRAM。
第二个:Coding 场景的 acceptance length 6.30,max 7.14。
这是 DFlash 投机解码一次出 8 个 draft token 之后被验证接受的比例,
6-7 个被保留 —— 比传统投机解码那种"一个一个出再一个一个验"高了一个量级。
第三个:3 倍价格,10 倍速度。MiMo-V2.5-Pro 本身已经 $0.43 输入 / $0.87 输出每百万 token,
UltraSpeed 加到 3 倍价 —— 不是免费午餐,但这是 1T 模型的推理,
你让用户为"快 10 倍"额外掏 3 倍钱,我觉得合理。
我之前一直以为 1T 模型的快慢纯粹是显存带宽的物理极限,
现在看下来,瓶颈其实在"算子边界"。blog 里原话:
1000 TPS 下每个算子生命周期被压到微秒级,传统的 launch/sync/memory 往返形成了
"Execution Gaps" —— 这些 gap 加起来才是真正卡速度的地方。
我个人认为小米和 TileRT 真正牛的地方不在 FP4、也不在 DFlash 单点,
在"模型和系统一起设计"。FP4 只压 MoE Expert(其他模块保精度)、
DFlash block size 卡 8(再大就验证开销爆炸)、TileRT 把算子 gap 在根上消掉 ——
三个动作是配合的,缺一个都到不了 1000。
这事更深的味道是:"软件定义速度"终于压过了"硬件定义速度"。
Groq 和 Cerebras 过去几年攒的家底是"我硬件强所以我快",
现在小米告诉你,模型侧 + 系统侧 6 个月的 co-design,能在 8 卡通用机上干出 15x ChatGPT/Claude。
我觉得这条路径会逼着 Groq 们重新回答一个问题 ——
你的硬件优势到底是一个工程壁垒,还是一个时间窗口?
我也想提一句"这玩意到底能用在哪"。blog 里给的场景是:
高频量化交易信号、反欺诈毫秒级拦截、外科辅助医学影像。
这个我还不太了解 1T 模型在医疗这种高 stakes 场景里延迟真的能当卖点 ——
推理快 10 倍救不回来的东西,救回来的速度也救不回来。
但高频交易和反欺诈是真的,毫秒就是钱。
说回现实:6 月 9 日到 6 月 23 日、23:59 北京时间,API 申请制开放 14 天,
每天 10 个队列位、单次 30 分钟、5 分钟 idle 自动释放。
这种"挤着用"的玩法明显是 compute 还没完全铺开,
价格 3 倍 + 限流 —— 这就是"我们证明它能跑,量产等下个季度"的姿态。
我个人看法,这事不是吹牛,
但也别把它当"中国 AI 已经吊打美国"的证据 ——
MiMo 走的是 V2.5 Pro 已经是 Opus 级别的底子,UltraSpeed 是在底子上把速度拉到极致。
Grok 那些闭源前沿模型在 reasoning / agent 这类长链任务上是不是也能做到 1000 TPS,
这个我现在还没看到数据。
你们呢?
如果给你 1000 TPS 的 1T 模型,你第一反应是拿它来跑什么?
高频交易和 coding agent 我都觉得有戏 —— 但医疗那块我持保留态度。
你们怎么看?
