当前位置：首页 > news >正文

小米把 1T 模型干到 1000 TPS？这事 Groq 看了得沉默

news 2026/6/9 19:19:10

讲真，看到小米和 TileRT 联合发的 MiMo-V2.5-Pro-UltraSpeed 挂在 HN 上 580 分、
423 条评论冲上来的时候，我第一反应是 —— 又一个营销稿？

我本来认为"1T 模型 + 1000 TPS"这事，硬件不堆点定制硅根本做不到。
你看 Groq 用 LPU、Cerebras 搞晶圆级，都是奔着把内存带宽做爆才把延迟压下来。
1T 这个规模，按理说 KV cache 本身就够呛，怎么可能在通用 8 卡服务器上跑出千 TPS？

结果我抽了个时间把 mimo.xiaomi.com 那篇 blog 通读了一遍，
看到三个数字的时候，沉默了。

第一个：1000+ TPS，峰值能摸到 1200，对比 Groq LPU 顶配 750 TPS、Cerebras 也只敢报 1T 以下模型。
而且是"标准的 8-GPU 商用节点"，不是 wafer-scale 也不是片上 SRAM。

第二个：Coding 场景的 acceptance length 6.30，max 7.14。
这是 DFlash 投机解码一次出 8 个 draft token 之后被验证接受的比例，
6-7 个被保留 —— 比传统投机解码那种"一个一个出再一个一个验"高了一个量级。

第三个：3 倍价格，10 倍速度。MiMo-V2.5-Pro 本身已经 $0.43 输入 / $0.87 输出每百万 token，
UltraSpeed 加到 3 倍价 —— 不是免费午餐，但这是 1T 模型的推理，
你让用户为"快 10 倍"额外掏 3 倍钱，我觉得合理。

我之前一直以为 1T 模型的快慢纯粹是显存带宽的物理极限，
现在看下来，瓶颈其实在"算子边界"。blog 里原话：
1000 TPS 下每个算子生命周期被压到微秒级，传统的 launch/sync/memory 往返形成了
"Execution Gaps" —— 这些 gap 加起来才是真正卡速度的地方。

我个人认为小米和 TileRT 真正牛的地方不在 FP4、也不在 DFlash 单点，
在"模型和系统一起设计"。FP4 只压 MoE Expert（其他模块保精度）、
DFlash block size 卡 8（再大就验证开销爆炸）、TileRT 把算子 gap 在根上消掉 ——
三个动作是配合的，缺一个都到不了 1000。

这事更深的味道是："软件定义速度"终于压过了"硬件定义速度"。
Groq 和 Cerebras 过去几年攒的家底是"我硬件强所以我快"，
现在小米告诉你，模型侧 + 系统侧 6 个月的 co-design，能在 8 卡通用机上干出 15x ChatGPT/Claude。
我觉得这条路径会逼着 Groq 们重新回答一个问题 ——
你的硬件优势到底是一个工程壁垒，还是一个时间窗口？

我也想提一句"这玩意到底能用在哪"。blog 里给的场景是：
高频量化交易信号、反欺诈毫秒级拦截、外科辅助医学影像。
这个我还不太了解 1T 模型在医疗这种高 stakes 场景里延迟真的能当卖点 ——
推理快 10 倍救不回来的东西，救回来的速度也救不回来。
但高频交易和反欺诈是真的，毫秒就是钱。

说回现实：6 月 9 日到 6 月 23 日、23:59 北京时间，API 申请制开放 14 天，
每天 10 个队列位、单次 30 分钟、5 分钟 idle 自动释放。
这种"挤着用"的玩法明显是 compute 还没完全铺开，
价格 3 倍 + 限流 —— 这就是"我们证明它能跑，量产等下个季度"的姿态。

我个人看法，这事不是吹牛，
但也别把它当"中国 AI 已经吊打美国"的证据 ——
MiMo 走的是 V2.5 Pro 已经是 Opus 级别的底子，UltraSpeed 是在底子上把速度拉到极致。
Grok 那些闭源前沿模型在 reasoning / agent 这类长链任务上是不是也能做到 1000 TPS，
这个我现在还没看到数据。

你们呢？

如果给你 1000 TPS 的 1T 模型，你第一反应是拿它来跑什么？
高频交易和 coding agent 我都觉得有戏 —— 但医疗那块我持保留态度。
你们怎么看？

查看全文

http://www.jsqmd.com/news/982959/