当前位置: 首页 > news >正文

vLLM推理引擎教程6-Nsight Systems性能分析

1、概念

我们需要通过推理引擎极致地优化推理的性能,所以必不可少需要一个性能分析工具。

本文介绍Nvidia Nsight Systems,它时一个低开销的系统级性能分析器。它的核心设计目标是回答一个关键问题:“我的应用程序在运行过程中,时间到底花在了哪里”。

Nsight Systems专注于应用程序的行为,它通过收集代码在CPU和GPU上的执行细节,生成一个跨整个系统的时间线视图,让开发者能够清晰地看到线程活动、GPU内核执行、内存拷贝、API调用等事件之间地因果关系和时序关系。

2、安装

目标:在linux服务器上跟踪应用程序的执行,在windows上进行可视化分析。

下载地址:https://developer.nvidia.com/nsight-systems/get-started

Windows安装:

linux安装:

Linux安装命令:

sudo rpm -ivh NsightSystems-linux-cli-public-2025.6.1.190-3689520.rpm

Linux端验证成功:

nsys --version

返回结果:

3、Python版本GPU性能测试

python测试代码:

import torch import time print("Creating tensors on GPU...") x = torch.randn(10000, 10000).cuda() y = torch.randn(10000, 10000).cuda() print("Performing matrix multiplication...") start = time.time() z = torch.mm(x, y) torch.cuda.synchronize() end = time.time() print(f"Done! Time: {end - start:.2f} seconds") print(f"Result shape: {z.shape}")

执行命令日志:

(vllm_python312) [work@iZuf6hp1dkg31metmko4pbZ test]$ nsys profile --trace=cuda,nvtx,osrt --output=matrix_mult_trace --force-overwrite true python test_gpu.py Collecting data... Creating tensors on GPU... Performing matrix multiplication... Done! Time: 0.10 seconds Result shape: torch.Size([10000, 10000]) Generating '/tmp/nsys-report-1078.qdstrm' [1/1] [========================100%] matrix_mult_trace.nsys-rep Generated: /data/xiehao/workspace/code/test/matrix_mult_trace.nsys-rep

将nsys-rep文件在Windows端通过GUI打开:

上面的python代码涉及GPU操作的有3部分:

- x复制到GPU,32ms

- y复制到GPU,31ms

- mm操作,47ms

http://www.jsqmd.com/news/100827/

相关文章:

  • JX6-CON1控制器模块
  • 海外回国eSIM避坑指南一定要提前搞懂,不然真的会被坑惨!
  • spark读hive偶尔出现table not found
  • keyence颜色传感器LR-W70使用(最多可区分16种颜色)
  • Wan2.2-T2V-A14B模型部署与高保真T2V实战
  • Kubernetes Debug 专用镜像实践指南
  • AIGC简介
  • LangGraph4j 入门
  • 基于VUE的企业信息管理系统 [VUE]-计算机毕业设计源码+LW文档
  • Linux SSH隧道代理转发及多层转发
  • 硬核拆解:这套电影解说工作流,如何帮你零成本搭建AI影视解说SaaS
  • 12/16
  • LobeChat安全与权限管理实战解析
  • Nano Banana Pro 如何重塑 AI 驱动的教育未来
  • 黑科技加持,工作效率翻倍!这 9 款小众软件宝藏盘点
  • 女朋友到家前 10 分钟,空调自动开暖风(小智 MCP 实战)
  • 12.12 标签(四) 表格
  • 海报设计无从下手?这3个技巧让你告别空白画布
  • LobeChat能否实现段落缩写功能?长文本精炼助手
  • β-Amyloid (25-35);GSNKGAIIGLM
  • Hutool Beanutil.copyproperties() 是浅拷贝还是深拷贝 - Higurashi
  • 【小白笔记】大数加法
  • 课题申报新手入门必备指南!利用AI辅助搞定 6大关键部分,高效提升申报成功率(附AI提示词)
  • Java面试题含答案——2025年最新完整分享,收藏这篇就够了
  • Flutter状态管理全解析:Provider vs Bloc vs Riverpod实战对比
  • unity中简单控制角色移动及动画实例--以及角色动画抖动残影拖影处理
  • 【小白笔记】二叉树的前序,中序,后序,层序遍历(递归与迭代)
  • 无人机红外图像下极小目标检测数据集,无人机红外小目标检测数据集 低空安防、机场净空监测、反无人机系统、鸟类迁徙监控 YOLOv8** 构建的 **无人机红外图像下极小目标检测系统
  • 深入解析:电压基准芯片详解:从原理到选型,附 TLV431 应用解析
  • 算法题 重构字符串