当前位置: 首页 > news >正文

vLLM 大模型性能测试

目录
  • 短文本测试
  • 中等长度测试
  • 长文本测试

短文本测试

vllm bench serve
--model /data/models/Qwen1.5-14B-Chat-AWQ
--backend vllm
--base-url http://localhost:8000
--endpoint /v1/completions
--dataset-name random
--num-prompts 50
--random-input-len 32
--random-output-len 64

中等长度测试

vllm bench serve
--model /data/models/Qwen1.5-14B-Chat-AWQ
--backend vllm
--base-url http://localhost:8000
--endpoint /v1/completions
--dataset-name random
--num-prompts 100
--random-input-len 128
--random-output-len 256

长文本测试

vllm bench serve
--model /data/models/Qwen1.5-14B-Chat-AWQ
--backend vllm
--base-url http://localhost:8000
--endpoint /v1/completions
--dataset-name random
--num-prompts 50
--random-input-len 512
--random-output-len 512

============ Serving Benchmark Result ============
Successful requests: 100
Failed requests: 0
Benchmark duration (s): 83.02
Total input tokens: 12800
Total generated tokens: 25600
Request throughput (req/s): 1.20
Output token throughput (tok/s): 308.35
Peak output token throughput (tok/s): 768.00
Peak concurrent requests: 100.00
Total token throughput (tok/s): 462.53
---------------Time to First Token----------------
Mean TTFT (ms): 2960.13
Median TTFT (ms): 1815.87
P99 TTFT (ms): 50967.20
-----Time per Output Token (excl. 1st token)------
Mean TPOT (ms): 185.77
Median TPOT (ms): 184.23
P99 TPOT (ms): 292.57
---------------Inter-token Latency----------------
Mean ITL (ms): 185.77
Median ITL (ms): 124.29
P99 ITL (ms): 428.14

image

http://www.jsqmd.com/news/269809/

相关文章:

  • 在360干了3年网络安全工程师,30岁即将退休的我,告诉你网络安全的真实就业前景
  • 红蓝对抗 网络安全 网络安全红蓝对抗演练
  • 【Hadoop】HDFS Router-based Federation:解决 NameNode 扩展性问题的联邦方案
  • 一篇文章带你轻松掌握ARP欺骗的原理以及运用
  • 百年匠心,科技赋能:神象人参粉——滋补养生的品质之选 - 行业调研院
  • Vue3 响应式系统——computed 和 watch
  • CC++核心介绍
  • HarmonyOS 中如何避免线程阻塞?从原理到实战的完整解析
  • 历年CSP-J初赛真题解析 | 2014年CSP-J初赛
  • 中华老字号的现代传承:神象人参粉,以科技赋能千年滋补智慧 - 行业调研院
  • 4 个值得关注的开源业务数据管理工具
  • 用提示工程让大模型自己检查自己:CoVe方法有效减少幻觉
  • c+++核心介绍
  • C++2026核心介绍
  • 《Python模糊测试普及困局:隐性壁垒与破局路径深度解析》
  • 机器学习实战:多项式回归建模——从模拟数据到模型评估
  • 英特尔AI双赛走出的万名开发者,正在弥合AI人才缺口
  • 【计算机毕业设计案例】基于django定制化ERP系统APP企业客户设备进销存系统小程序(程序+文档+讲解+定制)
  • 无线网络仿真:蓝牙网络仿真_(15).蓝牙网络仿真研究前沿
  • Flink 流处理从入门到精通:DataStream 转换与窗口操作实战
  • 深入 Flink 数据源:RichSourceFunction 的设计与最佳实践
  • 小程序毕设项目推荐-基于django+小程序的工厂定制化ERP办公系统APP小程序【附源码+文档,调试定制服务】
  • 云厂商与软件供应商承担万亿美元AI投资,但长期成本终将转向用户
  • 2026校招薪资报告:AI/大模型岗位领跑,附完整学习路径与资料包
  • MySQL + MQ 最终一致性终极方案:Outbox + 幂等 + 补偿 + 对账全解析
  • 小程序计算机毕设之基于django智能制造业ERP系统定制化ERP系统APP小程序(完整前后端代码+说明文档+LW,调试定制等)
  • 计算机小程序毕设实战-基于django定制化ERP系统APP小程序员工管理、客户管理、设备管理【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • PHP vs Python:开发者终极选择指南
  • Web应用防火墙(WAF)核心功能特性汇总
  • 国产化建设:从“可替代”走向“可控可演进”