当前位置: 首页 > news >正文

我们看一份报告的时候主要看什么

这是使用vllm里面的压测脚本测试出来的数据,并发量分别为20和1


1. 核心指标解读

在看数据前,先明确三个最关键的指标含义(主要看什么):

  • TTFT (Time to First Token):首字延迟。从你按下回车到 AI 蹦出第一个字的时间(决定了响应感)。
  • TPOT (Time per Output Token):写字速度。第一个字出来后,后续每个字的间隔(决定了吐字流畅度)。
  • Total Throughput:总吞吐量。系统每秒钟一共处理了多少个 Token(决定了系统整体效率)。

2. 报告对比:并发 20 vs. 并发 1

我们将两份数据放在一起看:

指标并发 20 (压测模式)并发 1 (理想模式)解读
Total Throughput4962.95 tok/s790.48 tok/s20并发效率更高。因为你一次性喂了 2 万个词(Prefill),把 GPU 算力填满了。
Output Throughput551.44 tok/s87.83 tok/s系统总产出增加。20个人分着写,系统每秒总共能写 551 个词。
Mean TTFT1289.03 ms (1.2秒)173.02 ms (0.17秒)并发越高,排队越久。20个人一起挤,第一个字出来的速度慢了 7.5 倍。
Mean TPOT17.21 ms10.11 ms单人写字变慢了。因为显存压力和任务切换,每个词的间隔从 10ms 增加到了 17ms。

3. 深度拆解:数据背后的硬件博弈

为什么 20 并发的 Total Throughput (4962) 这么高?

这是因为你的测试用例中,输入(Input)远多于输出(Output)

  • 20 并发下,输入 Token 是 20480 个,而输出才 2560 个。
  • GPU 处理这 2 万多个输入时走的是“算力瓶颈”,速度极快,把平均分拉上去了。

而如果你是做实时聊天机器人:

  • 173ms 的 TTFT让用户感觉 AI 是秒回的。
  • 10.11ms 的 TPOT换算过来大约是99 tok/s。人类阅读速度大约只有 5-10 tok/s,这意味着 AI 写字的速度远超人类阅读速度,体验极佳。

并发 20 的危险信号:P99 ITL (174.71 ms)

注意看 20 并发报告里的P99 ITL

  • 虽然平均写字间隔是 17ms,但最慢的情况下(P99),字与字之间卡了174ms
  • 原因:这说明在多并发下,显存已经非常紧张,系统在搬运 KV Cache 或进行 Swap 交换,导致了明显的卡顿(抖动)。

4. 总结

  1. 单人模式 (并发1):这台设备是Qwen2.5-1.5B 的神机。响应极快(173ms),吐字极稳(10ms)。
  2. 多人模式 (并发20):系统被压榨到了极限。虽然总吞吐量 (4962) 看着很爽,但用户体验开始下降(首字要等 1.2 秒以上,且偶尔会卡顿)。
  3. 硬件瓶颈对齐
    • 你的173ms TTFT验证了 GPU算力没问题。
    • 你的10.11ms TPOT (99 tok/s)验证了显存带宽是稳定的。
    • 你的P99 抖动验证了显存容量/PCIe 带宽是高负载下的短板。
http://www.jsqmd.com/news/711169/

相关文章:

  • 2026年4月新发布:温州专业二手注塑机供应厂家深度**与**推荐 - 2026年企业推荐榜
  • 从原理到部署:手把手教你用DINOv2-base搭建一个本地图片搜索引擎(附完整代码)
  • 大语言模型认知行为与元推理技术研究
  • 国产替代实战系列(一):商业论证——在 Vibe Coding 时代,重估国产化的“入场券”
  • 物联网设备加密算法选型决策树(支持LoRaWAN/NB-IoT/Thread协议栈,兼容ARM Cortex-M0+/RISC-V 32位平台)
  • 终极英雄联盟助手:如何用Akari工具包轻松提升你的游戏水平
  • 2026年4月车载动力电池加热膜选型指南:新沂地区优质厂商深度剖析 - 2026年企业推荐榜
  • Stable Diffusion WebUI Forge完整入门指南:打造你的AI绘画工作室终极方案 [特殊字符]
  • 扩散模型评估:挑战与标准化实践
  • 从农历生日提醒到星座运势:用sxtwl和Python打造你的个人日历自动化系统
  • 2026年4月新消息:广州商品房买卖纠纷律师选择指南与专业推荐 - 2026年企业推荐榜
  • 国产替代实战系列(二):模型移植——如何通过 ONNX 优雅地跨越“CUDA 之墙”?
  • GHelper终极指南:华硕笔记本性能优化完全免费解决方案
  • 2026年4月新消息:自建房承建口碑**揭晓,结构安全与高效施工成核心考量 - 2026年企业推荐榜
  • 终极明日方舟自动化助手MAA:5大核心功能与快速配置指南
  • Logisim新手避坑指南:手把手搞定‘头歌’16位海明码实验(附GB2312 ROM配置)
  • AI思维临界点:神经网络推理能力的相变现象研究
  • 嵌入式加密不是“移植OpenSSL”那么简单,深度解析TinyCrypt、Mbed TLS Lite与自研XOR-PRNG三方案对比,含实测功耗/吞吐/抗故障注入数据
  • 2026年河桦树苗品类细分与核心种植技术全解析 - 优质品牌商家
  • 2026年国内铁方通厂商top5盘点:铁方通,铝天花,铝方通,长城板,防水背衬板,三防板,矿锦板,排行一览! - 优质品牌商家
  • GraphRAG实战:从原理到部署,构建基于知识图谱的智能问答系统
  • 魔兽争霸3终极兼容性修复指南:使用WarcraftHelper解决现代系统问题
  • Glaze工具实战:保护数字艺术版权对抗AI模仿
  • xFasterTransformer:CPU大模型推理优化与部署实战指南
  • 洞察2026:石家庄煤矿用切顶钻车供应格局与领军企业深度解析 - 2026年企业推荐榜
  • 2026年4月更新:精密制造如何选择三坐标测量仪?国产黑马深度解析 - 2026年企业推荐榜
  • MPC Video Renderer:让你的Windows视频播放体验全面升级的终极解决方案
  • [Rust][ARM64] 八、加载下一阶段——从 SD 卡读取内核并移交控制权
  • 开源AI项目协作模式与生态发展分析
  • nli-MiniLM2-L6-H768批量处理优化:利用GPU并行计算加速大规模文本对推理