当前位置：首页 > news >正文

智谱开启狂飙模式！7倍提速，全球最快，旗舰模型即问即答

news 2026/7/14 23:14:59

大模型推理速度天花板，又被捅破了。

5月22日，智谱上线GLM-5.1高速版API，接口名GLM-5.1-highspeed，输出速度跑到400 tokens/s，刷新全球大模型API速度纪录，比原版提速约7倍。比谷歌刚发的，主打速度与性能的旗舰模型Gemini 3.5 Flash还快一倍。

一个754B参数的旗舰模型，跑出了即问即答的速度，代码生成效率提升近10倍，过去因延迟卡住的产品形态，开始变得可行。

Token狂飙，股价也跟着狂飙涨了25%。1265的股价，排在了贵州茅台和寒武纪之后。

400 tokens/s怎么做到的

普通人阅读中文的速度大概每分钟300到500字，换算下来大约每秒5到8个token。

400 tokens/s，相当于模型输出速度是人阅读速度的50到80倍。你才开始读，它已经把整篇文档写完了。

此前全球大模型API的速度上限大约在50到60 tokens/s，400 tokens/s直接把数字翻了将近7倍。

GLM-5.1-highspeed与原版GLM-5.1对比，效果非常明显。前者30秒就跑完了，后者跑了7分钟。

这个速度由智谱GLM团队和TileRT团队联合打造，核心优化分三层推进。

推理引擎层，针对GLM-5.1的MoE（Mixture of Experts，混合专家）架构特点，重写了核心推理路径。MoE架构的特点是每次推理只激活部分专家，路由计算和专家调度的效率直接影响推理速度。重写后的推理路径把单卡吞吐能力拉了上去，打好了底层基础。

调度系统层，动态批处理、请求合并、KV缓存调度优化，三套组合拳一起上。

动态批处理让不同用户的请求智能打包，减少GPU空闲时间。请求合并把相似请求合并处理，避免重复计算。KV缓存调度优化让注意力计算中的键值对缓存命中率更高，重复内容不用反复算。

三招叠加的效果是，高并发场景下的尾延迟大幅降低。以往用户一多，排队时间就飙升，这套调度让多人同时调用时仍能保持低延迟。

基础设施层，推理集群部署、网络链路、负载均衡协同优化。

智谱特别强调了一点：400 TPS（每秒token数）不是一个峰值数字，是稳定可用的生产级能力。跑一秒400容易，持续稳定在400才难。

这背后需要对集群的每一层做精细调优，从GPU间通信的带宽分配到请求路由策略，任何一个环节的瓶颈都会拖垮整体吞吐。

更关键的技术细节来自TileRT团队。

当前主流推理框架以operator/kernel为基本调度单元，每个算子都要走一遍完整链路：host启动，读权重，计算，写回，同步。

推理进入单token、小batch、多卡TP（Tensor Parallel，张量并行）的场景后，算子被切到微秒级，调度、访存与同步的开销反而占了大部分时间，真正用于计算的比例很低。

就像一条流水线，每个工位都要走一遍审批流程，加工本身只要一秒，审批花了十秒。

TileRT抛弃Runtime层的动态调度，在AOT（Ahead-Of-Time，预编译）阶段把整个计算图静态编排为一个常驻GPU的persistent Engine Kernel。

单卡之内，计算、异步IO和通信被拆解为Tile级微任务，整个推理过程只Launch一次Engine Kernel，算子间的中间结果不再写回Global Memory，经由Register（寄存器）、Shared Memory（共享内存）与L2 Cache直传，host调度和跨算子同步被压进同一个常驻kernel。

相当于把流水线的审批全去掉，所有工位同步开工，中间品不进仓库直接传下一站。

多卡层面，TileRT把SM（Streaming Multiprocessor，流多处理器）内部的Warp Specialization思路外推到整张8卡NVL拓扑。

不同GPU rank不再执行同构逻辑，按计算密度与数据依赖被特化为不同worker，有的专门做注意力计算，有的专门做前馈网络，各干各的专长活儿。

这种异构分工比传统同构并行效率高出一截。

TTFT（Time to First Token，首token延迟）压到了1秒以内。用户发一句话，还没反应过来，回答已经往外冒了。