当前位置: 首页 > news >正文

智谱开启狂飙模式!7倍提速,全球最快,旗舰模型即问即答

大模型推理速度天花板,又被捅破了。

5月22日,智谱上线GLM-5.1高速版API,接口名GLM-5.1-highspeed,输出速度跑到400 tokens/s,刷新全球大模型API速度纪录,比原版提速约7倍。比谷歌刚发的,主打速度与性能的旗舰模型Gemini 3.5 Flash还快一倍。

一个754B参数的旗舰模型,跑出了即问即答的速度,代码生成效率提升近10倍,过去因延迟卡住的产品形态,开始变得可行。

Token狂飙,股价也跟着狂飙涨了25%。1265的股价,排在了贵州茅台和寒武纪之后。

400 tokens/s怎么做到的

普通人阅读中文的速度大概每分钟300到500字,换算下来大约每秒5到8个token。

400 tokens/s,相当于模型输出速度是人阅读速度的50到80倍。你才开始读,它已经把整篇文档写完了。

此前全球大模型API的速度上限大约在50到60 tokens/s,400 tokens/s直接把数字翻了将近7倍。

GLM-5.1-highspeed与原版GLM-5.1对比,效果非常明显。前者30秒就跑完了,后者跑了7分钟。

这个速度由智谱GLM团队和TileRT团队联合打造,核心优化分三层推进。

推理引擎层,针对GLM-5.1的MoE(Mixture of Experts,混合专家)架构特点,重写了核心推理路径。MoE架构的特点是每次推理只激活部分专家,路由计算和专家调度的效率直接影响推理速度。重写后的推理路径把单卡吞吐能力拉了上去,打好了底层基础。

调度系统层,动态批处理、请求合并、KV缓存调度优化,三套组合拳一起上。

动态批处理让不同用户的请求智能打包,减少GPU空闲时间。请求合并把相似请求合并处理,避免重复计算。KV缓存调度优化让注意力计算中的键值对缓存命中率更高,重复内容不用反复算。

三招叠加的效果是,高并发场景下的尾延迟大幅降低。以往用户一多,排队时间就飙升,这套调度让多人同时调用时仍能保持低延迟。

基础设施层,推理集群部署、网络链路、负载均衡协同优化。

智谱特别强调了一点:400 TPS(每秒token数)不是一个峰值数字,是稳定可用的生产级能力。跑一秒400容易,持续稳定在400才难。

这背后需要对集群的每一层做精细调优,从GPU间通信的带宽分配到请求路由策略,任何一个环节的瓶颈都会拖垮整体吞吐。

更关键的技术细节来自TileRT团队。

当前主流推理框架以operator/kernel为基本调度单元,每个算子都要走一遍完整链路:host启动,读权重,计算,写回,同步。

推理进入单token、小batch、多卡TP(Tensor Parallel,张量并行)的场景后,算子被切到微秒级,调度、访存与同步的开销反而占了大部分时间,真正用于计算的比例很低。

就像一条流水线,每个工位都要走一遍审批流程,加工本身只要一秒,审批花了十秒。

TileRT抛弃Runtime层的动态调度,在AOT(Ahead-Of-Time,预编译)阶段把整个计算图静态编排为一个常驻GPU的persistent Engine Kernel。

单卡之内,计算、异步IO和通信被拆解为Tile级微任务,整个推理过程只Launch一次Engine Kernel,算子间的中间结果不再写回Global Memory,经由Register(寄存器)、Shared Memory(共享内存)与L2 Cache直传,host调度和跨算子同步被压进同一个常驻kernel。

相当于把流水线的审批全去掉,所有工位同步开工,中间品不进仓库直接传下一站。

多卡层面,TileRT把SM(Streaming Multiprocessor,流多处理器)内部的Warp Specialization思路外推到整张8卡NVL拓扑。

不同GPU rank不再执行同构逻辑,按计算密度与数据依赖被特化为不同worker,有的专门做注意力计算,有的专门做前馈网络,各干各的专长活儿。

这种异构分工比传统同构并行效率高出一截。

TTFT(Time to First Token,首token延迟)压到了1秒以内。用户发一句话,还没反应过来,回答已经往外冒了。

快和强,终于不矛盾了

过去大模型推理常识是快的小,大的慢。

高速模型几乎总是轻量级模型,参数少、能力弱,速度快但干不了精细活儿。旗舰模型参数多、能力强,但推理慢,一个复杂问题等个十几秒是常态。

GLM-5.1高速版打破了这个惯例,第一次在国产大模型中把旗舰级能力和低延迟同时带入生产环境。它完整保留了GLM-5.1的综合能力与Coding能力,没有为了速度牺牲质量。

GLM-5.1作为智谱最新旗舰模型,它采用754B参数的MoE架构,256个专家混合,约44B激活参数,支持200K上下文与128K超长输出。

长程任务能力方面,能在单次任务中持续、自主地工作长达8小时,完成从规划、执行到迭代优化的完整闭环,交付工程级成果。

在SWE-bench Pro基准测试中,GLM-5.1拿到58.4分,国产模型首次超越Claude Opus 4.6,也是目前唯一达到8小时级持续工作的开源模型。

OpenRouter数据显示,GLM-5.1在编码和Agent能力上取得开源SOTA表现。

高速版在这些能力上没有缩水。同一个大脑,只是换了一套更快的神经系统。推理框架的优化改变的是信号传递速度,不改变大脑的思考深度。

AI编程场景中,代码生成效率提升约10倍,模型能同步理解工程上下文并输出方案。写代码这件事,原来等模型输出是效率瓶颈,现在变成了人思考的速度跟不上模型输出的速度。

3D游戏场景中,玩家输入文字后模型可实时调整场景,文字输入与场景即时联动。此前因为延迟问题,这类交互只能停留在概念阶段,玩家说一句话等5秒场景才变,体验很糟糕。400 tokens/s下,场景随语言变化几近实时,此前无法落地的产品形态开始具备可行性。

很多场景一下打开了。交互式应用生成、实时工具调用都不再是问题。

400 tokens/s的输出速度,TTFT小于1秒,GLM-5.1高速版能够应对一切响应延迟要求极高的场合。

Coding Agent(编程智能体)在工作时需要频繁调用模型,一轮任务可能涉及几十次甚至上百次模型请求。原来每次请求等几秒,累计下来效率很低。高速版让代码生成效率提升约10倍,Agent的迭代节奏从等模型输出变成了跟上自己的思路,连续调用不再是效率瓶颈。

实时交互,即问即答,体感跟跟真人聊天差不多。这种低延迟交互在客服、教育、心理咨询等场景中直接影响用户体验。

金融市场瞬息万变,行情分析、风险评估、策略生成都需要模型快速响应。慢一秒,可能就错过一个交易窗口。高速版让模型从辅助工具变成准实时决策引擎,数据进来,判断出去,延迟控制在人类反应时间之内。

文字描述与场景实时联动,虚拟世界和现实输入之间的墙被推倒了一半。

目前GLM-5.1高速版面向智谱MaaS(模型即服务)平台部分企业客户开放,官方暂未公布面向更广泛用户开放的时间计划。

大模型的竞争,正从谁更聪明,变成谁更快地聪明。

参考资料:

https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1-highspeed

http://www.jsqmd.com/news/884239/

相关文章:

  • SuperCom串口调试工具:终极免费解决方案与5分钟快速部署指南
  • 2026哥大生物医学信息学求职:蒸汽教育TPS体系 - 资讯纵览
  • 对比直接使用厂商api体验taotoken在路由容灾方面的优势
  • 别再花钱买云服务了!手把手教你在Windows 10上用Nginx搭个免费的RTMP直播服务器
  • 网络软文发布平台怎么选?网络软文发布平台最佳性价比平台 - 代码非世界
  • PlayAI语音质量评测白皮书(内部泄露版):仅限TOP 500 AI工程师获取的13项黄金评估checklist
  • Python移动开发终极指南:从Python代码到Android APK的完整实战教程
  • 1833 高精度内置 MOSFET 锂电池保护电路
  • AI智能体:自主决策与自主迭代,重塑人机协作新形态
  • 原神自动化助手GIS:3大核心功能彻底解放你的双手
  • 佛山凯迪拉克二手车选购:技术维度的靠谱商家解析 - 奔跑123
  • 微信小程序抓包实战:Yakit与Fiddler协同调试指南
  • 终极指南:XXPermissions如何解决Android权限适配难题
  • 佛山凯迪拉克二手车选购:检测与售后的技术细节解析 - 奔跑123
  • 财务怎么做经营分析?一文说清经营分析的9大体系30个指标!
  • 不止于画图:深入理解Altium Designer原理图编辑器中的‘栅格’与‘字符串’系统
  • AI算力服务器选型避坑:2026中小企业算力部署实战指南 - 智恒百亿
  • 揭秘Midjourney V6光效失控真相:3类高频报错日志解析+实时渲染帧率优化至1.8s/图的硬核方案
  • 昆明黄金回收价格怎么定?实测六家机构给出答案 - 黄金回收
  • 企业级AI渗透测试环境搭建实战:Strix平台四步部署指南
  • 3个简单步骤:让老旧Mac重获新生运行最新macOS的终极指南
  • Unity新手避坑:用VideoPlayer在UI上播视频,从拖拽到WebGL发布的完整流程
  • AI辅助急诊精神健康危机识别:从非结构化数据到混合智能决策
  • 云境标书AI怎么样?2026深度评测:核心亮点、真实案例与性价比全解析 - 陈工0237
  • OpenHRMS:30+模块构建的终极开源人力资源管理系统
  • 在Hermes Agent项目中自定义Provider接入Taotoken服务
  • 低成本DIY智能驱猫系统:基于PIR传感器与雨刮水泵的硬件方案
  • 如何快速释放硬件性能:轻量级系统优化工具完整指南
  • 2026年成都电缆桥架与抗震支架选型指南:赛创电器与行业头部品牌深度横评 - 优质企业观察收录
  • 音乐格式转换终极指南:3步解锁所有加密音频