智谱开启狂飙模式!7倍提速,全球最快,旗舰模型即问即答
大模型推理速度天花板,又被捅破了。
5月22日,智谱上线GLM-5.1高速版API,接口名GLM-5.1-highspeed,输出速度跑到400 tokens/s,刷新全球大模型API速度纪录,比原版提速约7倍。比谷歌刚发的,主打速度与性能的旗舰模型Gemini 3.5 Flash还快一倍。
一个754B参数的旗舰模型,跑出了即问即答的速度,代码生成效率提升近10倍,过去因延迟卡住的产品形态,开始变得可行。
Token狂飙,股价也跟着狂飙涨了25%。1265的股价,排在了贵州茅台和寒武纪之后。
400 tokens/s怎么做到的
普通人阅读中文的速度大概每分钟300到500字,换算下来大约每秒5到8个token。
400 tokens/s,相当于模型输出速度是人阅读速度的50到80倍。你才开始读,它已经把整篇文档写完了。
此前全球大模型API的速度上限大约在50到60 tokens/s,400 tokens/s直接把数字翻了将近7倍。
GLM-5.1-highspeed与原版GLM-5.1对比,效果非常明显。前者30秒就跑完了,后者跑了7分钟。
这个速度由智谱GLM团队和TileRT团队联合打造,核心优化分三层推进。
推理引擎层,针对GLM-5.1的MoE(Mixture of Experts,混合专家)架构特点,重写了核心推理路径。MoE架构的特点是每次推理只激活部分专家,路由计算和专家调度的效率直接影响推理速度。重写后的推理路径把单卡吞吐能力拉了上去,打好了底层基础。
调度系统层,动态批处理、请求合并、KV缓存调度优化,三套组合拳一起上。
动态批处理让不同用户的请求智能打包,减少GPU空闲时间。请求合并把相似请求合并处理,避免重复计算。KV缓存调度优化让注意力计算中的键值对缓存命中率更高,重复内容不用反复算。
三招叠加的效果是,高并发场景下的尾延迟大幅降低。以往用户一多,排队时间就飙升,这套调度让多人同时调用时仍能保持低延迟。
基础设施层,推理集群部署、网络链路、负载均衡协同优化。
智谱特别强调了一点:400 TPS(每秒token数)不是一个峰值数字,是稳定可用的生产级能力。跑一秒400容易,持续稳定在400才难。
这背后需要对集群的每一层做精细调优,从GPU间通信的带宽分配到请求路由策略,任何一个环节的瓶颈都会拖垮整体吞吐。
更关键的技术细节来自TileRT团队。
当前主流推理框架以operator/kernel为基本调度单元,每个算子都要走一遍完整链路:host启动,读权重,计算,写回,同步。
推理进入单token、小batch、多卡TP(Tensor Parallel,张量并行)的场景后,算子被切到微秒级,调度、访存与同步的开销反而占了大部分时间,真正用于计算的比例很低。
就像一条流水线,每个工位都要走一遍审批流程,加工本身只要一秒,审批花了十秒。
TileRT抛弃Runtime层的动态调度,在AOT(Ahead-Of-Time,预编译)阶段把整个计算图静态编排为一个常驻GPU的persistent Engine Kernel。
单卡之内,计算、异步IO和通信被拆解为Tile级微任务,整个推理过程只Launch一次Engine Kernel,算子间的中间结果不再写回Global Memory,经由Register(寄存器)、Shared Memory(共享内存)与L2 Cache直传,host调度和跨算子同步被压进同一个常驻kernel。
相当于把流水线的审批全去掉,所有工位同步开工,中间品不进仓库直接传下一站。
多卡层面,TileRT把SM(Streaming Multiprocessor,流多处理器)内部的Warp Specialization思路外推到整张8卡NVL拓扑。
不同GPU rank不再执行同构逻辑,按计算密度与数据依赖被特化为不同worker,有的专门做注意力计算,有的专门做前馈网络,各干各的专长活儿。
这种异构分工比传统同构并行效率高出一截。
TTFT(Time to First Token,首token延迟)压到了1秒以内。用户发一句话,还没反应过来,回答已经往外冒了。
快和强,终于不矛盾了
过去大模型推理常识是快的小,大的慢。
高速模型几乎总是轻量级模型,参数少、能力弱,速度快但干不了精细活儿。旗舰模型参数多、能力强,但推理慢,一个复杂问题等个十几秒是常态。
GLM-5.1高速版打破了这个惯例,第一次在国产大模型中把旗舰级能力和低延迟同时带入生产环境。它完整保留了GLM-5.1的综合能力与Coding能力,没有为了速度牺牲质量。
GLM-5.1作为智谱最新旗舰模型,它采用754B参数的MoE架构,256个专家混合,约44B激活参数,支持200K上下文与128K超长输出。
长程任务能力方面,能在单次任务中持续、自主地工作长达8小时,完成从规划、执行到迭代优化的完整闭环,交付工程级成果。
在SWE-bench Pro基准测试中,GLM-5.1拿到58.4分,国产模型首次超越Claude Opus 4.6,也是目前唯一达到8小时级持续工作的开源模型。
OpenRouter数据显示,GLM-5.1在编码和Agent能力上取得开源SOTA表现。
高速版在这些能力上没有缩水。同一个大脑,只是换了一套更快的神经系统。推理框架的优化改变的是信号传递速度,不改变大脑的思考深度。
AI编程场景中,代码生成效率提升约10倍,模型能同步理解工程上下文并输出方案。写代码这件事,原来等模型输出是效率瓶颈,现在变成了人思考的速度跟不上模型输出的速度。
3D游戏场景中,玩家输入文字后模型可实时调整场景,文字输入与场景即时联动。此前因为延迟问题,这类交互只能停留在概念阶段,玩家说一句话等5秒场景才变,体验很糟糕。400 tokens/s下,场景随语言变化几近实时,此前无法落地的产品形态开始具备可行性。
很多场景一下打开了。交互式应用生成、实时工具调用都不再是问题。
400 tokens/s的输出速度,TTFT小于1秒,GLM-5.1高速版能够应对一切响应延迟要求极高的场合。
Coding Agent(编程智能体)在工作时需要频繁调用模型,一轮任务可能涉及几十次甚至上百次模型请求。原来每次请求等几秒,累计下来效率很低。高速版让代码生成效率提升约10倍,Agent的迭代节奏从等模型输出变成了跟上自己的思路,连续调用不再是效率瓶颈。
实时交互,即问即答,体感跟跟真人聊天差不多。这种低延迟交互在客服、教育、心理咨询等场景中直接影响用户体验。
金融市场瞬息万变,行情分析、风险评估、策略生成都需要模型快速响应。慢一秒,可能就错过一个交易窗口。高速版让模型从辅助工具变成准实时决策引擎,数据进来,判断出去,延迟控制在人类反应时间之内。
文字描述与场景实时联动,虚拟世界和现实输入之间的墙被推倒了一半。
目前GLM-5.1高速版面向智谱MaaS(模型即服务)平台部分企业客户开放,官方暂未公布面向更广泛用户开放的时间计划。
大模型的竞争,正从谁更聪明,变成谁更快地聪明。
参考资料:
https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1-highspeed
