当前位置：首页 > news >正文

别把 `TTFT`、`TPOT`、吞吐量都当成“延迟优化”：真正先分开的，是排队、prefill、decode、continuous batching 这 4 层

news 2026/5/11 7:27:58

别把`TTFT`、`TPOT`、吞吐量都当成“延迟优化”：真正先分开的，是排队、prefill、decode、continuous batching 这 4 层

很多团队一聊大模型推理延迟，嘴里会连续冒出几句话：TTFT要低一点、TPOT要稳一点、吞吐量要高一点、再把continuous batching和chunked prefill打开。问题在于，这几个词经常被当成同一类“推理优化术语”一起说，真到线上排障时反而最容易失焦。你看到TTFT变差，可能第一反应是 decode 太慢；可在很多真实服务里，先拖垮首 token 的并不是生成速度，而是请求排队、长 prompt prefill、调度策略，甚至是你把一个更适合吞吐的开关，当成了所有场景都该开的低延迟开关。

这篇文章不做框架 PK，也不复读 benchmark 榜单。我想把一个更基础但更值钱的问题讲清楚：TTFT、TPOT、端到端时延、吞吐量、continuous batching、chunked prefill到底分别落在请求生命周期的哪一层，它们彼此之间为什么经常一起出现、却绝不该混成一句“延迟优化”。

先把最容易混的 4 句话摆出来

我最近最常见到的混说，大概有这几种：

http://www.jsqmd.com/news/794362/

相关文章：

Java基础——抽象类与接口

谱域图算子与边缘计算优化实践

Java 判断选择循环

Agent Framework 中智能体的Concurrent编排模式

《Java 100 天进阶之路》第1篇：编程语言类型有哪些？我心中的TOP1编程语言，什么是Java跨平台性？

JDBC实现数据库增删改查

Cursor智能体开发：Agent 模式

把边界立起来，理解 ABAP Cloud 的几根主梁

LangChain详解

SpringBoot的服装商城系统毕设源码

Unity路网建模踩坑实录：OpenDRIVE解析中那些“反直觉”的几何参数（hdg, curvature到底怎么算？）

渗透测试技巧（七）| 系统提权

从 CDS 到服务契约，读懂 ABAP Cloud 的 Model-Driven Architecture

openwrt--by--myself

PyTorch 为什么现在要把 `Helion` 推到台前：它不是“又一个 Triton 替代品”，真正稀缺的是可移植 kernel authoring 这层

Java 开发问题：ArrayList 容量误解导致越界

别再瞎学 C 语言了！真・胎教级入门教程 | NO.3 万字详解分支与循环 | 下篇

从混淆矩阵到mIOU：手把手解析语义分割核心评价指标

Unity RenderTexture进阶：从刮刮乐到可擦写3D表面（Shader与LineRenderer实战）

离线式SMPS输入整流器设计与优化指南

web项目工程搭建、Result封装类、部门功能的增删改查和日志技术Logback

ImageGlass深度解析：打造Windows平台高效图像浏览的实战指南

DISTINCT 带 WHERE 仍全表扫描？两层优化刀法拆解

鸿蒙与 H5 通信使用的方法及原理

如何彻底解决显卡驱动残留问题？Display Driver Uninstaller深度解析指南

英伟达400亿投资帝国：从卖芯片到控生态，黄仁勋的AI全链路野心

PCI、PCIe与InfiniBand接口技术对比与应用解析

百度网盘直链解析技术深度解析：突破限速壁垒的工程实践

【测试方案_100 BASE-T1】快速掌握100BASE-T1 PMA物理层一致性测试

MySQL索引失效