Nsight System和Compute命令行
Nsight System分析
nsys profile--trace=cuda,nvtx --gpu-metrics-devices=all-o<out_file_name>python<python_file_name><python args>示例
nsys profile--trace=cuda,nvtx --gpu-metrics-devices=all-oprofile_attention_bm128_bn64_w4_s2 python my_flash_attn_test.pyNsight Compute分析
ncu --kernel-name"<kernal_name>"--setfull-o<out_file_name>python<python_file_name><python args>示例
ncu --kernel-name"flash_attn"--setfull-oflash_attn_full_bm128_bn64_w4_s2 python my_flash_attn_test.py