当前位置：首页 > news >正文

性能实测：登临Goldwasser V2加速卡跑YOLOv5s，对比CPU看速度提升多少？

news 2026/7/15 4:08:06

登临Goldwasser V2加速卡YOLOv5s实测：从环境配置到性能对比的全流程拆解

当目标检测任务遇上边缘计算场景，算力与能效的平衡往往成为工程落地的关键瓶颈。上周在部署某工业园区安防系统时，我们尝试用登临科技的Goldwasser V2加速卡运行YOLOv5s模型，实测数据显示：处理1080P图片时，GPU加速卡的速度可达传统X86服务器的23倍，而功耗仅为CPU方案的1/5。本文将完整还原测试环境搭建、对比实验设计以及结果分析的全过程，为面临边缘AI部署选型的技术团队提供第一手参考数据。

1. 测试环境搭建与工具链配置

1.1 硬件平台选型与拓扑设计

本次测试采用同主机双计算单元对比方案，主要硬件配置如下：

组件类型	CPU计算平台	GPU加速平台
主处理器	Intel Xeon Silver 4310	同左
加速卡	-	登临Goldwasser V2 (8GB显存)
内存	64GB DDR4	同左
存储	1TB NVMe SSD	同左
操作系统	Ubuntu 20.04 LTS	同左

特别需要注意的是，Goldwasser V2采用PCIe 4.0 x16接口，安装时应优先选择直连CPU的插槽。我们实测发现，通过芯片组转接的插槽会导致带宽下降约15%。

1.2 软件栈部署要点

登临提供的工具链包含三个核心组件：

# 驱动安装验证 sudo apt install ./denglin-driver_2.3.0_amd64.deb dlsmi # 应显示设备信息 # SDK环境配置 tar -xzf denglin-sdk-2.4.1.tar.gz cd denglin-sdk-2.4.1 source env.sh # 设置环境变量 # Python虚拟环境搭建 conda create -n dl_py39 python=3.9 conda activate dl_py39 pip install torch-1.10.0+dl -f https://download.denglin.com/wheels/

提示：若遇到CUDA兼容性问题，建议检查gcc版本是否匹配。我们遇到gcc 9.4导致编译失败的情况，降级到gcc 7.5后解决。

2. YOLOv5s模型优化与部署

2.1 模型转换与量化技巧

原始PyTorch模型需通过登临的转换工具生成适配格式：

from dl import convert convert.yolov5s_to_rlym( input_model="yolov5s.pt", output_model="yolov5s_dl.rlym", input_shape="images:1,3,640,640", # 动态batch需设为-1 opset_version=11 )

量化环节对性能影响显著，我们对比了三种精度模式：

精度模式	显存占用(MB)	mAP@0.5	推理速度(FPS)
FP32	1248	0.874	152
FP16	864	0.871	218
INT8	512	0.862	347

实际部署建议：安防场景可选FP16平衡精度与速度，工业检测推荐INT8最大化吞吐量。

2.2 批处理与流水线优化

通过修改test3.py实现多级流水并行：

# 修改输入数据生成逻辑 def generate_batches(image_paths, batch_size=4): for i in range(0, len(image_paths), batch_size): yield load_images(image_paths[i:i+batch_size]) # 在推理循环中启用异步模式 with nne_util.AsyncInferPipeline(gpu_model_path) as pipeline: for batch in generate_batches(image_paths): pipeline.submit(batch) results = pipeline.gather()

实测显示，batch_size=4时系统吞吐量提升40%，但延迟相应增加15ms。边缘场景建议batch_size≤2。

3. 性能对比测试方法论

3.1 测试数据集设计

为模拟真实场景，我们构建了包含三类典型图片的测试集：

简单场景：单目标静态图像（占比20%）
中等复杂度：多目标交错画面（占比60%）
挑战性场景：低光照/遮挡情况（占比20%）

每类图片分别准备200张，统一resize到640x640分辨率，保存为jpg格式。

3.2 性能指标采集方案

使用改良版监控脚本记录关键指标：

#!/bin/bash # 监控CPU利用率 mpstat -P ALL 1 > cpu_usage.log & # 监控GPU状态 watch -n 0.5 "dlsmi | grep -E 'Util|Mem|Temp'" > gpu_stats.log & # 执行测试脚本 python test3.py | tee inference.log

数据处理阶段特别关注三个核心指标：