当前位置: 首页 > news >正文

小米把 1T 模型干到 1000 TPS?这事 Groq 看了得沉默

讲真,看到小米和 TileRT 联合发的 MiMo-V2.5-Pro-UltraSpeed 挂在 HN 上 580 分、
423 条评论冲上来的时候,我第一反应是 —— 又一个营销稿?

我本来认为"1T 模型 + 1000 TPS"这事,硬件不堆点定制硅根本做不到。
你看 Groq 用 LPU、Cerebras 搞晶圆级,都是奔着把内存带宽做爆才把延迟压下来。
1T 这个规模,按理说 KV cache 本身就够呛,怎么可能在通用 8 卡服务器上跑出千 TPS?

结果我抽了个时间把 mimo.xiaomi.com 那篇 blog 通读了一遍,
看到三个数字的时候,沉默了。

第一个:1000+ TPS,峰值能摸到 1200,对比 Groq LPU 顶配 750 TPS、Cerebras 也只敢报 1T 以下模型。
而且是"标准的 8-GPU 商用节点",不是 wafer-scale 也不是片上 SRAM。

第二个:Coding 场景的 acceptance length 6.30,max 7.14。
这是 DFlash 投机解码一次出 8 个 draft token 之后被验证接受的比例,
6-7 个被保留 —— 比传统投机解码那种"一个一个出再一个一个验"高了一个量级。

第三个:3 倍价格,10 倍速度。MiMo-V2.5-Pro 本身已经 $0.43 输入 / $0.87 输出每百万 token,
UltraSpeed 加到 3 倍价 —— 不是免费午餐,但这是 1T 模型的推理,
你让用户为"快 10 倍"额外掏 3 倍钱,我觉得合理。

我之前一直以为 1T 模型的快慢纯粹是显存带宽的物理极限,
现在看下来,瓶颈其实在"算子边界"。blog 里原话:
1000 TPS 下每个算子生命周期被压到微秒级,传统的 launch/sync/memory 往返形成了
"Execution Gaps" —— 这些 gap 加起来才是真正卡速度的地方。

我个人认为小米和 TileRT 真正牛的地方不在 FP4、也不在 DFlash 单点,
在"模型和系统一起设计"。FP4 只压 MoE Expert(其他模块保精度)、
DFlash block size 卡 8(再大就验证开销爆炸)、TileRT 把算子 gap 在根上消掉 ——
三个动作是配合的,缺一个都到不了 1000。

这事更深的味道是:"软件定义速度"终于压过了"硬件定义速度"。
Groq 和 Cerebras 过去几年攒的家底是"我硬件强所以我快",
现在小米告诉你,模型侧 + 系统侧 6 个月的 co-design,能在 8 卡通用机上干出 15x ChatGPT/Claude。
我觉得这条路径会逼着 Groq 们重新回答一个问题 ——
你的硬件优势到底是一个工程壁垒,还是一个时间窗口?

我也想提一句"这玩意到底能用在哪"。blog 里给的场景是:
高频量化交易信号、反欺诈毫秒级拦截、外科辅助医学影像。
这个我还不太了解 1T 模型在医疗这种高 stakes 场景里延迟真的能当卖点 ——
推理快 10 倍救不回来的东西,救回来的速度也救不回来。
但高频交易和反欺诈是真的,毫秒就是钱。

说回现实:6 月 9 日到 6 月 23 日、23:59 北京时间,API 申请制开放 14 天,
每天 10 个队列位、单次 30 分钟、5 分钟 idle 自动释放。
这种"挤着用"的玩法明显是 compute 还没完全铺开,
价格 3 倍 + 限流 —— 这就是"我们证明它能跑,量产等下个季度"的姿态。

我个人看法,这事不是吹牛,
但也别把它当"中国 AI 已经吊打美国"的证据 ——
MiMo 走的是 V2.5 Pro 已经是 Opus 级别的底子,UltraSpeed 是在底子上把速度拉到极致。
Grok 那些闭源前沿模型在 reasoning / agent 这类长链任务上是不是也能做到 1000 TPS,
这个我现在还没看到数据。

你们呢?

如果给你 1000 TPS 的 1T 模型,你第一反应是拿它来跑什么?
高频交易和 coding agent 我都觉得有戏 —— 但医疗那块我持保留态度。
你们怎么看?

http://www.jsqmd.com/news/982959/

相关文章:

  • 四步解决Xbox手柄在macOS上的连接与兼容问题:从基础到专家的完整指南
  • 告别CNN与RNN:用SpectralFormer(Transformer)为高光谱图像分类打开新思路
  • 从WebLogo到MEME:手把手教你挖掘多序列比对结果中的保守区域与功能基序
  • NXP IW623P Wi-Fi 6/蓝牙5.x组合芯片硬件设计与调试实战指南
  • OmenSuperHub终极指南:三步掌握惠普游戏本性能完全控制权
  • WechatBakTool:基于C的微信聊天记录备份与数据库解密技术方案
  • 【零基础实操】 五分钟完成 OpenClaw 可视化部署配置(含安装包)
  • 高校掌纹识别课程实践包:PCA降维+CNN分类+多模型融合全流程Python代码
  • 3分钟掌握Borderless Gaming:告别游戏窗口边框的终极解决方案
  • 我测了 6 个大模型写中文文章:GPT-4 vs Claude vs DeepSeek vs 通义千问 vs Kimi vs 豆包,谁最像人写的
  • 专业数据可视化工具实战指南:3步创建交互式图表
  • 【嵌入式必知】内联函数(inline)和宏定义(#defne)
  • 工业级齿轮缺陷YOLO数据集:500张高清图+7类标注+训练验证测试划分+可视化脚本
  • 深入解读NXP Kinetis K61芯片手册:从电气参数到稳定嵌入式设计
  • 5分钟掌握YimMenu:GTA5安全增强与防崩溃解决方案
  • 别再死记硬背了!用Python代码手把手带你玩转A*算法(附扫地机器人实战源码)
  • i.MX 6UltraLite时序参数深度解析:从手册到稳定嵌入式设计的实战指南
  • i.MX 7ULP接口时序深度解析:从理论到硬件设计与驱动配置实战
  • MC68HC908AT32时钟系统:PLL低功耗管理与滤波电容选型实战
  • 告别龟速下载!3分钟掌握百度网盘高速下载神器
  • 从PCI到PCIe 4.0:图解电脑主板接口的‘高速公路’进化史(及未来展望)
  • 如何告别复杂宏命令:魔兽世界智能宏系统终极指南
  • 企业AI算力工作站DLTM深度学习推理工作站零代码私有化重塑企业AI落地新模式
  • 嵌入式低功耗设计实战:从Kinetis K26电气特性到功耗优化策略
  • 终极无损视频修复指南:5分钟学会使用untrunc拯救损坏的MP4文件
  • 微信聊天记录备份工具:如何安全掌控你的数字记忆
  • 计算机毕业设计之 智能零售柜商品识别系统
  • Havenlon 系统术语解读:从信任到执行控制
  • 深度解析MusicFree:如何构建开源插件化音乐播放器的技术架构
  • 别再只盯着CPU了!用Node Exporter监控Linux服务器,这5个内存和磁盘IO的指标更关键