当前位置：首页 > news >正文

我的办公小浣熊使用实录：5份LLM压力测试报告分析全过程

news 2026/5/27 11:54:54

我的办公小浣熊使用实录：5份LLM压力测试报告分析全过程

📋 任务背景

最近接到了一个紧急任务：需要分析5份不同大语言模型的压力测试PDF报告，包括Qwen3.6-35b、Nemotron3-33b、Qwen3-8b、Qwen3.5-122b和Qwen3.5-35b。老板要求我不仅要提取关键指标，还要做深度对比分析，最后生成一份专业的分析报告。

说实话，看到这一堆PDF文件时我真的头大…每份报告都有几十页，数据密密麻麻的，手动整理估计要搞一整天。

🚀 第一步：上传文件并初步询问

我的提问：

"请从用户上传的5份LLM压力测试报告PDF中，提取并整理以下核心指标，生成一个对比表格：
目标提取字段：
模型名称(Model Name)：提取文件名中的模型标识（如 qwen3_5_35b）。
模型参数量级(Size)：从文件名中识别参数规模（如 8B, 35B, 122B, 33B）。
总请求数(Total Requests)。
成功率(Success Rate)。
全局TPS(Overall TPS)：衡量吞吐量的关键指标。
平均首字延迟(Avg TTFT)：衡量响应速度的关键指标。
平均响应时间(Avg Response Time)。
注意：
请确保数据对应正确的文件。
如果某项数据在文档中未明确列出，请标注为"N/A"。"

小浣熊的回答：

它首先确认了所有文件都已成功上传到沙盒环境，然后立即开始处理。让我惊讶的是，它只用了不到1分钟就生成了完整的对比表格：

Model Name	Size	Total Requests	Success Rate	Overall TPS (t/s)	Avg TTFT (s)	Avg Response Time (s)
qwen3.6:35b	35B	42	100.0%	147.36	27.31	29.46
nemotron3:33b	33B	57	100.0%	137.32	19.31	20.71
qwen3:8b	8B	51	100.0%	64.39	64.15	67.06
qwen3.5:122b	122B	25	100.0%	62.19	15.68	21.07
qwen3.5:35b	35B	67	100.0%	130.88	30.95	33.19

它还贴心地加了一个简要分析：

吞吐量表现：qwen3.6:35b以 147.36 t/s 的全局TPS领先，表现出极高的处理效率。
响应速度：qwen3.5:122b虽然参数量最大（122B），但平均首字延迟（TTFT）仅为 15.68s，响应速度最快；而qwen3:8b的延迟最高（64.15s）。
稳定性：所有模型在本次压力测试中均保持了 100.0% 的成功率。

🔍 第二步：深入分析需求

看到这个结果我很满意，但还需要更深入的分析。于是我又提出了更具体的问题：

我的提问：

"基于上一步提取的数据表格，请进行以下维度的深度分析：
1. 性能横向对比（吞吐量 vs 延迟）：
- 找出Overall TPS 最高和Avg TTFT 最低的模型。
- 分析Nemotron3_33b相比于Qwen3系列同等参数量（如35B）的模型，在吞吐量（TPS）和延迟（TTFT）上的表现差异。
- 观察Qwen3_5_122b（122B参数）的表现：它的 TPS 是否符合"参数越大性能越强"的预期？如果不是，可能的原因是什么（结合 Avg Response Time 分析）？
2. 版本迭代对比（Qwen 3.5 vs 3.6）：
- 对比文件report_stress_qwen3_5_35b和report_stress_qwen3_6_35b。
- 分析从 3.5 版本升级到 3.6 版本后，35B参数模型在全局TPS和响应时间上的具体提升幅度。
3. 稳定性评估：
- 查看各报告中的P90 TPS和Min/Max TPS（如有详细数据）。
- 评估在高负载下，哪个模型的性能波动最小（即服务最稳定）。
4. 综合结论：
- 如果追求高并发处理能力（吞吐量），推荐哪个模型？
- 如果追求极致的交互速度（低延迟），推荐哪个模型？"

小浣熊的回答：

这次它给出了非常详细的分析结果：

1. 性能横向对比

Overall TPS 最高：qwen3.6:35b(147.36 t/s)，表现出极强的并发处理能力。
Avg TTFT 最低：qwen3.5:122b(15.68 s)，在首字响应速度上表现最优。

Nemotron3_33b vs Qwen3.6_35b (参数量级相近)：

吞吐量：Qwen3.6:35b 比 Nemotron3:33b 高出约 10.04 t/s，处理效率更高。
延迟：Nemotron3:33b 的平均首字延迟（19.31s）显著低于 Qwen3.6:35b（27.31s），在交互响应速度上更具优势。

Qwen3.5_122b 的表现分析：

TPS 表现：其 TPS 为 62.19 t/s，确实低于 35B 模型。这符合大参数模型的物理特性：随着参数量增加，计算开销增大，单位时间内的 Token 生成总量通常会受到算力瓶颈的限制。
原因分析：尽管 TPS 较低，但其 Avg Response Time 仅为 21.07s（极短）。这说明该模型虽然单次请求的计算量大，但推理引擎的优化极好，能够非常高效地完成单次任务，从而实现了"低延迟"与"高参数量"的平衡。

2. 版本迭代对比（Qwen 3.5 vs 3.6）

对比同为 35B 参数的qwen3.5:35b和qwen3.6:35b：

全局TPS提升：从 130.88 t/s 提升至 147.36 t/s，提升幅度达 12.59%。
响应时间缩短：从 33.19s 缩短至 29.46s，缩短幅度达 11.24%。
结论：Qwen 3.6 版本在保持模型规模不变的情况下，通过架构或算子优化，实现了吞吐量和响应速度的双重显著提升。

3. 稳定性评估

通过计算 Min/Max TPS 的波动范围（Range）及变异系数（CV = Range / Overall TPS）来评估稳定性：

Model Name	Min_TPS	Max_TPS	Range	CV
qwen3.6:35b	6.35	131.83	125.48	0.85152
nemotron3:33b	1.54	87	85.46	0.622342
qwen3:8b	1.33	56.65	55.32	0.85914
qwen3.5:122b	12.82	55.53	42.71	0.686766
qwen3.5:35b	4.13	81.17	77.04	0.588631

最稳定模型：qwen3.5:35b(CV=0.588)。在高负载下，它的性能波动最小，服务表现最为平稳。
波动较大模型：qwen3.6:35b 和 qwen3:8b 的 CV 值较高（均超过 0.85），说明其在极端情况下性能起伏较大。

4. 综合结论与建议

如果追求高并发处理能力（吞吐量）：推荐qwen3.6:35b。它以 147.36 t/s 的全局 TPS 领先全场，适合需要快速处理大量任务的后台批处理场景。
如果追求极致的交互速度（低延迟）：推荐qwen3.5:122b。它拥有最低的 Avg TTFT（15.68s），且单次响应时间极短，非常适合对实时性要求极高的对话或交互式应用。

📊 第三步：生成正式报告

最后，我需要一份正式的《LLM 压力测试分析报告》，于是提出了最终要求：

我的提问：

"请根据上述分析结果，生成一份简明的《LLM 压力测试分析报告》。要求包含以下部分：
执行摘要：用一段话总结本次测试的整体结论。
关键指标对比表：展示各模型的核心性能数据。
性能雷达图描述：请描述一个包含"吞吐量(TPS)"、“首字延迟(TTFT)”、"响应时间"三个维度的雷达图，用于直观展示 Qwen3.6-35b 与 Nemotron-33b 的差异。
优化建议：针对表现稍弱的模型（如 Qwen3.5-122b），给出可能的调优建议（如检查显存带宽、批处理设置等）。"

小浣熊的回答：

它立即生成了一份结构完整、内容详实的正式报告，包含了所有要求的章节，并且逻辑清晰、专业性强。