当前位置：首页 > news >正文

我们看一份报告的时候主要看什么

news 2026/4/28 0:28:36

这是使用vllm里面的压测脚本测试出来的数据，并发量分别为20和1

1. 核心指标解读

在看数据前，先明确三个最关键的指标含义（主要看什么）：

TTFT (Time to First Token)：首字延迟。从你按下回车到 AI 蹦出第一个字的时间（决定了响应感）。
TPOT (Time per Output Token)：写字速度。第一个字出来后，后续每个字的间隔（决定了吐字流畅度）。
Total Throughput：总吞吐量。系统每秒钟一共处理了多少个 Token（决定了系统整体效率）。

2. 报告对比：并发 20 vs. 并发 1

我们将两份数据放在一起看：

指标	并发 20 (压测模式)	并发 1 (理想模式)	解读
Total Throughput	4962.95 tok/s	790.48 tok/s	20并发效率更高。因为你一次性喂了 2 万个词（Prefill），把 GPU 算力填满了。
Output Throughput	551.44 tok/s	87.83 tok/s	系统总产出增加。20个人分着写，系统每秒总共能写 551 个词。
Mean TTFT	1289.03 ms (1.2秒)	173.02 ms (0.17秒)	并发越高，排队越久。20个人一起挤，第一个字出来的速度慢了 7.5 倍。
Mean TPOT	17.21 ms	10.11 ms	单人写字变慢了。因为显存压力和任务切换，每个词的间隔从 10ms 增加到了 17ms。

3. 深度拆解：数据背后的硬件博弈

为什么 20 并发的 Total Throughput (4962) 这么高？

这是因为你的测试用例中，输入（Input）远多于输出（Output）。

20 并发下，输入 Token 是 20480 个，而输出才 2560 个。
GPU 处理这 2 万多个输入时走的是“算力瓶颈”，速度极快，把平均分拉上去了。

而如果你是做实时聊天机器人：

173ms 的 TTFT让用户感觉 AI 是秒回的。
10.11ms 的 TPOT换算过来大约是99 tok/s。人类阅读速度大约只有 5-10 tok/s，这意味着 AI 写字的速度远超人类阅读速度，体验极佳。

并发 20 的危险信号：P99 ITL (174.71 ms)

注意看 20 并发报告里的P99 ITL。

虽然平均写字间隔是 17ms，但最慢的情况下（P99），字与字之间卡了174ms。
原因：这说明在多并发下，显存已经非常紧张，系统在搬运 KV Cache 或进行 Swap 交换，导致了明显的卡顿（抖动）。

4. 总结

单人模式 (并发1)：这台设备是Qwen2.5-1.5B 的神机。响应极快（173ms），吐字极稳（10ms）。
多人模式 (并发20)：系统被压榨到了极限。虽然总吞吐量 (4962) 看着很爽，但用户体验开始下降（首字要等 1.2 秒以上，且偶尔会卡顿）。
硬件瓶颈对齐：
- 你的173ms TTFT验证了 GPU算力没问题。
- 你的10.11ms TPOT (99 tok/s)验证了显存带宽是稳定的。
- 你的P99 抖动验证了显存容量/PCIe 带宽是高负载下的短板。

http://www.jsqmd.com/news/711169/

相关文章：

2026年4月新发布：温州专业二手注塑机供应厂家深度**与**推荐 - 2026年企业推荐榜

从原理到部署：手把手教你用DINOv2-base搭建一个本地图片搜索引擎（附完整代码）

大语言模型认知行为与元推理技术研究

国产替代实战系列（一）：商业论证——在 Vibe Coding 时代，重估国产化的“入场券”

物联网设备加密算法选型决策树（支持LoRaWAN/NB-IoT/Thread协议栈，兼容ARM Cortex-M0+/RISC-V 32位平台）

终极英雄联盟助手：如何用Akari工具包轻松提升你的游戏水平

2026年4月车载动力电池加热膜选型指南：新沂地区优质厂商深度剖析 - 2026年企业推荐榜

Stable Diffusion WebUI Forge完整入门指南：打造你的AI绘画工作室终极方案 [特殊字符]

扩散模型评估：挑战与标准化实践

从农历生日提醒到星座运势：用sxtwl和Python打造你的个人日历自动化系统

2026年4月新消息：广州商品房买卖纠纷律师选择指南与专业推荐 - 2026年企业推荐榜

国产替代实战系列（二）：模型移植——如何通过 ONNX 优雅地跨越“CUDA 之墙”？

GHelper终极指南：华硕笔记本性能优化完全免费解决方案

2026年4月新消息：自建房承建口碑**揭晓，结构安全与高效施工成核心考量 - 2026年企业推荐榜

终极明日方舟自动化助手MAA：5大核心功能与快速配置指南

Logisim新手避坑指南：手把手搞定‘头歌’16位海明码实验（附GB2312 ROM配置）

AI思维临界点：神经网络推理能力的相变现象研究

嵌入式加密不是“移植OpenSSL”那么简单，深度解析TinyCrypt、Mbed TLS Lite与自研XOR-PRNG三方案对比，含实测功耗/吞吐/抗故障注入数据

2026年河桦树苗品类细分与核心种植技术全解析 - 优质品牌商家

2026年国内铁方通厂商top5盘点：铁方通,铝天花,铝方通,长城板,防水背衬板,三防板,矿锦板,排行一览！ - 优质品牌商家

GraphRAG实战：从原理到部署，构建基于知识图谱的智能问答系统

魔兽争霸3终极兼容性修复指南：使用WarcraftHelper解决现代系统问题

Glaze工具实战：保护数字艺术版权对抗AI模仿

xFasterTransformer：CPU大模型推理优化与部署实战指南

洞察2026：石家庄煤矿用切顶钻车供应格局与领军企业深度解析 - 2026年企业推荐榜

2026年4月更新：精密制造如何选择三坐标测量仪？国产黑马深度解析 - 2026年企业推荐榜

MPC Video Renderer：让你的Windows视频播放体验全面升级的终极解决方案

[Rust][ARM64] 八、加载下一阶段——从 SD 卡读取内核并移交控制权

开源AI项目协作模式与生态发展分析

nli-MiniLM2-L6-H768批量处理优化：利用GPU并行计算加速大规模文本对推理