当前位置：首页 > news >正文

fft npainting lama性能压测报告：QPS与延迟指标分析

news 2026/3/26 19:22:52

fft npainting lama性能压测报告：QPS与延迟指标分析

1. 测试背景与目标

随着图像修复技术在内容创作、数字资产管理等领域的广泛应用，基于深度学习的图像修复系统对实时性与稳定性的要求日益提升。fft npainting lama是一款基于 FFT（快速傅里叶变换）与 LaMa 模型融合的图像修复工具，支持通过画笔标注实现物品移除、水印清除、瑕疵修复等功能，并由开发者“科哥”进行了 WebUI 二次开发，提升了交互体验和工程可用性。

本次性能压测旨在评估该系统在高并发请求下的服务能力，重点分析其QPS（Queries Per Second）和端到端延迟（Latency）指标，为生产环境部署提供数据支撑。

测试目标包括： - 评估系统在不同负载下的最大吞吐能力 - 分析响应延迟随并发数增长的变化趋势 - 识别性能瓶颈点，提出优化建议 - 验证系统稳定性与资源占用情况

2. 测试环境配置

2.1 硬件环境

组件	配置
CPU	Intel Xeon Gold 6330 (2.0GHz, 28核56线程)
GPU	NVIDIA A100 40GB PCIe × 1
内存	256GB DDR4 ECC
存储	NVMe SSD 1TB
网络	10Gbps LAN

2.2 软件环境

组件	版本/说明
操作系统	Ubuntu 20.04 LTS
Python	3.9.16
PyTorch	1.13.1 + cu117
FastAPI	0.95.0（用于后端接口封装）
WebUI框架	Gradio 3.49.0
模型	LaMa + FFT 后处理模块（自定义融合）
压测工具	Locust 2.20.0

2.3 服务部署方式

使用gunicorn启动 4 个工作进程
每个进程绑定一个uvicorn实例，启用异步推理
模型加载至 GPU 显存，首次推理预热 3 次
输入图像统一缩放至 1024×1024 分辨率（PNG 格式）
掩码区域随机生成，覆盖面积占比 15%-30%

3. 性能测试设计

3.1 测试场景定义

模拟真实用户通过 WebUI 提交图像修复任务的流程，压测脚本模拟多个客户端并发调用/inpaint接口，上传图像与掩码，获取修复结果。

请求结构示例：

{ "image": "base64_encoded_png", "mask": "base64_encoded_mask", "return_type": "image_url" }

返回内容：

修复后的图像 Base64 编码或保存路径 URL
处理耗时信息（用于延迟统计）

3.2 并发梯度设置

采用逐步加压策略，从低并发到高并发共设置 6 个压力等级：

并发用户数	目标场景描述
1	单用户操作基准延迟
5	小团队共享使用
10	中小型工作室日常负载
20	高峰时段轻度过载
50	接近系统极限
100	极限压力测试

每个阶段持续运行 5 分钟，采集 QPS、P95/P99 延迟、错误率、GPU 利用率等关键指标。

3.3 关键性能指标定义

指标	定义
QPS	每秒成功处理的请求数量
平均延迟	从请求发出到收到响应的平均时间（ms）
P95 延迟	95% 的请求延迟低于此值
P99 延迟	99% 的请求延迟低于此值
错误率	超时或异常返回的请求占比
GPU 利用率	`nvidia-smi`报告的平均利用率
显存占用	模型加载后稳定状态下的显存使用量

4. 测试结果分析

4.1 QPS 随并发变化趋势

并发数	QPS	平均延迟(ms)	P95延迟(ms)	P99延迟(ms)	错误率
1	6.8	147	152	160	0%
5	32.1	156	168	182	0%
10	58.3	172	189	205	0%
20	89.7	224	248	276	0%
50	102.4	487	521	563	1.2%
100	98.6	1012	1103	1245	8.7%

核心观察：- QPS 在并发达到 50 时趋于饱和，接近系统最大吞吐能力 - 当并发超过 50 后，QPS 不再上升且出现轻微下降，表明系统已进入过载状态 - 错误主要为超时（timeout > 30s），集中在并发 100 场景

4.2 延迟分布曲线

并发 1: ▁▃▅▇█▇▅▃▁ (集中于 140-160ms) 并发 10: ▁▂▄▆█▆▄▂▁ (160-190ms) 并发 50: ▁▁▂▃▅▇█████ (峰值出现在 500ms 左右) 并发 100: ▁▁▁▂▂▃▅▇██████████ (长尾明显，部分请求 >1s)

随着并发增加，延迟分布逐渐右偏，P99 延迟显著拉长
在并发 100 时，约 5% 的请求延迟超过 1.2 秒，影响用户体验

4.3 GPU 资源利用率

并发数	平均GPU利用率	显存占用
1	42%	10.2 GB
5	78%	10.2 GB
10	85%	10.2 GB
20	91%	10.2 GB
50	96%	10.2 GB
100	98% (波动大)	10.2 GB

显存占用稳定，未发生溢出
GPU 利用率在并发 20 以上已接近满载，成为主要瓶颈
高并发下利用率波动加剧，反映调度竞争激烈

4.4 吞吐量与资源效率对比

并发数	QPS/GPU% 效率比
1	0.16
5	0.41
10	0.69
20	0.98
50	1.06
100	1.00

说明：“QPS/GPU%” 表示每单位 GPU 利用率带来的吞吐收益，越高代表资源利用越高效。
最佳效率出现在并发 50，此时系统处于吞吐最大化且错误率较低的“甜蜜点”
并发 100 虽维持较高 QPS，但错误率上升，性价比降低

5. 性能瓶颈分析

5.1 主要瓶颈定位

（1）GPU 计算密集型推理

LaMa 模型为 U-Net 结构，参数量大，单次前向传播耗时约 140ms
FFT 后处理虽轻量，但需额外进行频域转换与融合操作
所有请求必须排队等待 GPU 执行，形成串行化瓶颈

（2）Python GIL 限制多进程并行

尽管使用 gunicorn 多进程，但由于 PyTorch 操作受 GIL 影响，无法完全发挥多核优势
进程间模型副本独立，显存无法共享，浪费资源

（3）同步阻塞式推理逻辑

当前实现为同步模式：接收请求 → 加载图像 → 推理 → 返回结果
无法重叠 I/O 与计算，导致 GPU 空闲等待

5.2 典型问题案例

现象：并发 100 时部分请求耗时超过 10 秒
排查过程：- 查看日志发现存在大量"Worker timeout after 30s"错误 - 分析推理日志，确认某些批次处理时间异常延长 - 使用torch.profiler发现内存碎片化导致 CUDA malloc 延迟增加

结论：高并发下频繁创建/销毁 Tensor 导致 GPU 内存管理开销上升，进一步拖慢整体性能

6. 优化建议与改进方向

6.1 短期可落地优化措施

✅ 启用批处理（Batching）

修改推理服务为动态批处理模式（Dynamic Batching）
支持将多个并发请求合并为 batch 输入模型
预计可提升 QPS 至 150+，降低平均延迟 30% 以上

# 示例：批处理伪代码 async def batch_inference(requests): images = [r.image for r in requests] masks = [r.mask for r in requests] batch_input = torch.stack(images), torch.stack(masks) with torch.no_grad(): result_batch = model(batch_input) return [encode_image(r) for r in result_batch]