当前位置：首页 > news >正文

使用Locust实现多链路压测：从原理到实战的完整指南

news 2026/6/22 8:30:51

1. 项目概述：为什么我们需要多链路压测？

在性能测试这个行当里干了十几年，我见过太多团队在压测上“踩坑”。最常见的场景就是，辛辛苦苦写了一套压测脚本，模拟用户登录、浏览商品、下单支付，跑起来数据看着也挺漂亮，结果一到大促或者流量高峰，系统还是挂了。复盘的时候才发现，问题出在一条“不起眼”的查询库存的接口上，或者是一个异步通知的回调链路上。这就是典型的单链路或混合场景压测的盲区——它无法真实模拟用户在实际操作中，不同业务路径对系统资源造成的叠加和竞争压力。

今天要聊的“使用Locust进行多链路压测”，就是为了解决这个问题。这不仅仅是一个技术实现，更是一种测试思维的转变。所谓“多链路”，不是简单地把几个接口的请求混在一起发，而是有组织、按比例、可监控地模拟多种用户行为场景（我们称之为“业务链路”）同时并发执行。比如，在一个电商系统中，模拟100个用户同时在线，其中60个在执行“浏览-加购”的轻量级链路，30个在执行“搜索-比价-下单”的核心交易链路，还有10个在执行“退货申请-客服沟通”的后服务链路。只有这样，压测结果才能无限逼近真实的生产流量模型，提前暴露资源争抢、链路依赖、数据库锁等深层问题。

Locust作为一个基于Python的开源负载测试工具，以其代码即脚本的灵活性和分布式扩展能力，成为实现这种复杂场景压测的利器。它不像JMeter那样依赖笨重的UI和XML配置，所有压测场景都用Python代码描述，这意味着你可以轻松地使用编程语言的一切特性：条件判断、循环、数据驱动、甚至调用其他库进行复杂的逻辑组装，来构建你的多链路压测模型。接下来，我会结合一个完整的实战代码示例，拆解从设计到实现的每一步，并分享那些在官方文档里不会写的“踩坑”经验。

2. 核心设计思路与Locust选型解析

2.1 从“单用户脚本”到“多链路模型”的思维跃迁

很多新手刚开始用Locust时，会习惯性地写一个大的TaskSet类，里面堆满了@task装饰的方法，每个方法代表一个接口。然后设置一个权重，希望Locust能按比例去调用。这本质上还是一种“接口混合”压测，而不是“链路压测”。两者的核心区别在于用户会话（Session）的保持与逻辑连贯性。

一个真实的用户链路是有状态的。例如“下单链路”，用户必须先登录（获取token），然后查询商品详情（依赖登录态），接着添加购物车、确认订单、支付，每一步都可能依赖上一步的结果（如商品ID、地址ID、订单号）。在单链路模型里，我们可能用一个全局变量或self.client的属性来传递这些状态。但在多链路模型中，我们需要为每一类虚拟用户（VUser）定义其独立且完整的行为序列。

因此，我们的设计思路是：

链路抽象：将每一个独立的业务场景（如“游客浏览”、“用户购买”、“管理员审核”）定义为一个独立的HttpUser（Locust 2.x 及以后）或TaskSet类。每个类代表一类用户角色。
权重配置：在Locust的负载配置中，为每一类用户设置生成权重。这个权重决定了在总的并发用户数中，各类用户的比例。这才是业务层面真实的流量配比。
状态隔离：确保不同链路类之间的数据（如认证信息、临时变量）是隔离的，避免链路间产生非预期的数据耦合，影响压测真实性。
全局共享：对于一些只读的、公共的测试数据（如城市列表、商品品类），可以设计成全局共享资源，以提高效率并模拟真实缓存场景。

2.2 为什么是Locust？优势与边界探讨

选择Locust作为多链路压测的工具，是基于其独特的优势，但也需要认清其边界。

核心优势：

代码驱动，极度灵活：这是实现复杂多链路逻辑的基石。你可以用random.choice随机选择链路分支，用for循环遍历数据，用if判断响应结果来决定下一步操作，甚至集成requests库处理Locust内置客户端不支持的协议。
资源消耗低，并发能力强：Locust采用协程（gevent）机制，一个进程可以轻松模拟数千上万的并发用户，对压测机资源要求远低于JMeter这类线程模型工具。
分布式支持友好：原生支持多机协同压测，只需一个--master和多个--worker即可轻松扩展，非常适合生成海量压力。
数据统计实时直观：Web UI界面虽然简洁，但RPS（每秒请求数）、响应时间、失败率等关键指标实时更新，图表清晰，支持导出数据。

需要留意的边界（避坑点）：

协议支持有限：内置对HTTP/HTTPS支持最好，对于WebSocket、gRPC、TCP等协议，需要自己扩展客户端或寻找社区插件。对于纯HTTP/HTTPS API的压测，它是完美的。
资源监控非内置：Locust本身不监控被压测服务器的CPU、内存等指标。你需要额外搭配Prometheus+Grafana、或Zabbix、或云监控平台，才能构成完整的性能监控体系。
脚本需要一定编程基础：虽然比写Java或Go测试代码简单，但依然要求测试人员具备基础的Python能力。不过，这也正是其强大之处。

注意：如果你的系统是微服务架构，内部大量使用Dubbo、gRPC等RPC调用，单纯用Locust压测HTTP网关可能无法触及服务间的直接压力。此时，需要采用“内外结合”的策略：用Locust压测入口网关模拟真实用户流量，同时用专门的中间件压测工具（如ghzfor gRPC）对内部服务进行补充压测。

3. 多链路压测实战：完整代码拆解与详解

下面，我将以一个简化的“内容社区平台”作为背景，设计三条核心业务链路：浏览用户（只读操作）、互动用户（读+写轻度操作）、内容创作者（读+写重度操作）。我们将看到如何用Locust代码将其实现。

3.1 项目结构与依赖准备

首先，建立清晰的项目结构。这不是必须的，但良好的结构让脚本更易维护。

locust-multi-link-demo/ ├── common/ │ ├── __init__.py │ ├── auth.py # 认证相关工具函数 │ ├── data_helper.py # 测试数据准备与读取 │ └── config.py # 全局配置（主机地址、用户比例等） ├── tasks/ │ ├── __init__.py │ ├── browser_tasks.py # 浏览用户链路任务集 │ ├── interactor_tasks.py # 互动用户链路任务集 │ └── creator_tasks.py # 创作者链路任务集 ├── locustfile.py # Locust主入口文件 └── requirements.txt # Python依赖

requirements.txt内容很简单：

locust>=2.20.0 requests

3.2 核心代码模块逐行解析

1. 全局配置 (common/config.py)这个文件用于集中管理所有可配置项，避免硬编码。

# common/config.py import os class Config: # 被压测系统的基础URL HOST = os.getenv("TARGET_HOST", "https://api.your-content-platform.com") # 多链路用户类的权重配置 (浏览用户:互动用户:内容创作者) USER_CLASS_WEIGHTS = { "BrowserUser": 70, # 70%的用户是浏览者 "InteractorUser": 25, # 25%的用户是互动者 "CreatorUser": 5, # 5%的用户是创作者 } # 测试数据文件路径 TEST_DATA_DIR = os.path.join(os.path.dirname(__file__), "../test_data") # 请求超时时间（秒） REQUEST_TIMEOUT = 10 # 是否验证SSL证书（测试环境可关闭） VERIFY_SSL = False # 创建一个全局配置实例方便导入 config = Config()

实操心得：将主机地址通过环境变量TARGET_HOST注入，是让脚本能在不同环境（测试、预发、生产）间无缝切换的最佳实践。在命令行执行时使用TARGET_HOST=https://staging-api.example.com locust。

2. 认证与数据工具 (common/auth.py,common/data_helper.py)auth.py负责处理登录逻辑，获取并管理Token。

# common/auth.py import random from locust import HttpUser from .config import config def login_and_get_token(client: HttpUser, username: str, password: str) -> str: """ 执行登录，并返回认证Token。 这里模拟一个标准的OAuth 2.0密码模式或JWT登录接口。 """ login_payload = { "username": username, "password": password, "grant_type": "password" } # 注意：登录接口通常不希望被压测统计，所以用`catch_response=True`并手动标记成功/失败 with client.post("/auth/login", json=login_payload, verify=config.VERIFY_SSL, catch_response=True, name="Auth_Login") as response: if response.status_code == 200: token = response.json().get("access_token") if token: # 将token存入当前用户实例的上下文，供后续请求使用 client.headers["Authorization"] = f"Bearer {token}" response.success() return token else: response.failure("Login succeeded but no token in response.") return "" else: response.failure(f"Login failed with status {response.status_code}") return ""

data_helper.py负责管理测试数据，例如从CSV或JSON文件中读取文章ID、评论内容等。

# common/data_helper.py import csv import json import random from typing import List from .config import config class TestDataManager: _article_ids: List[str] = None _comment_templates: List[str] = None @classmethod def get_article_ids(cls) -> List[str]: """获取文章ID列表，懒加载模式""" if cls._article_ids is None: file_path = os.path.join(config.TEST_DATA_DIR, "article_ids.csv") try: with open(file_path, 'r') as f: reader = csv.reader(f) # 假设CSV文件第一列是文章ID cls._article_ids = [row[0] for row in reader if row] except FileNotFoundError: # 如果文件不存在，则生成一些模拟ID（仅用于演示） cls._article_ids = [f"article_{i}" for i in range(1000, 1100)] print(f"Warning: Test data file not found, using mock data: {cls._article_ids[:5]}...") return cls._article_ids @classmethod def get_random_article_id(cls) -> str: """随机获取一个文章ID""" ids = cls.get_article_ids() return random.choice(ids) if ids else "" @classmethod def get_random_comment(cls) -> str: """随机获取一条评论内容""" if cls._comment_templates is None: cls._comment_templates = [ "写得真不错，受益匪浅！", "观点很独特，我有点不同的看法...", "收藏了，感谢分享！", "楼主能再详细讲讲第二部分吗？", "实践了一下，果然有效！", ] return random.choice(cls._comment_templates) # 创建全局单例 test_data = TestDataManager()

注意事项：在压测中，直接从文件重复读取数据会成为I/O瓶颈。这里采用类变量懒加载的方式，在进程启动时一次性将数据读入内存，后续所有虚拟用户共享这份内存数据，既保证了数据多样性，又避免了性能损耗。

3. 浏览用户链路 (tasks/browser_tasks.py)这类用户行为简单，主要是匿名或已登录状态下的浏览操作。

# tasks/browser_tasks.py from locust import task, between, HttpUser from common.config import config from common.data_helper import test_data class BrowserUser(HttpUser): """ 模拟浏览用户：70%的权重。 行为：查看首页列表 -> 随机进入文章详情 -> 可能查看作者信息。 大部分请求无需认证。 """ # 模拟用户思考时间，介于2到5秒之间 wait_time = between(2, 5) # 所有请求都发往配置的主机 host = config.HOST def on_start(self): """当虚拟用户启动时执行一次。这里可以初始化一些状态，比如部分浏览用户也可能登录。""" # 我们设定30%的浏览用户是登录状态 if random.random() < 0.3: # 这里简化处理，使用一个预置的测试账号登录 # 实际项目中，可以从一个用户池里随机取一个 from common.auth import login_and_get_token login_and_get_token(self, "browser_user_1", "test_password") else: # 匿名用户，清除可能存在的认证头 if "Authorization" in self.headers: del self.headers["Authorization"] @task(weight=3) # 这个链路的任务权重，权重越高被执行概率越大 def browse_homepage(self): """浏览首页或列表页""" with self.client.get("/api/v1/articles?page=1&size=20", name="[Browser]Get_Article_List", catch_response=True) as response: # 可以增加一些业务逻辑断言，比如检查返回的文章列表是否非空 if response.status_code == 200 and response.json().get("data"): response.success() else: response.failure(f"Get article list failed or empty. Status: {response.status_code}") @task(weight=5) # 查看详情的权重更高 def view_article_detail(self): """随机选择一篇文章查看详情""" article_id = test_data.get_random_article_id() if not article_id: self.environment.runner.quit() # 如果没有数据，停止测试 return with self.client.get(f"/api/v1/articles/{article_id}", name="[Browser]Get_Article_Detail", catch_response=True) as response: if response.status_code == 200: response.success() # 可以在这里解析响应，获取作者ID，为下一个任务做准备（模拟连续浏览行为） # 但为了链路清晰，我们通常用独立任务来模拟，避免一个任务过长。 else: response.failure(f"Get article detail failed for {article_id}. Status: {response.status_code}") @task(weight=1) def view_author_profile(self): """查看作者主页（假设从上个任务的响应中能拿到author_id，这里简化随机）""" # 模拟一个随机的作者ID author_id = random.randint(1000, 2000) self.client.get(f"/api/v1/authors/{author_id}/profile", name="[Browser]Get_Author_Profile")

代码逻辑解读：BrowserUser类定义了浏览用户的所有可能行为。wait_time模拟用户操作间隔。on_start是生命周期方法，用于初始化用户状态（是否登录）。每个@task装饰的方法都是一个独立的任务，weight参数决定了在该用户类内部，各个任务被执行的相对频率。这里view_article_detail的权重是5，browse_homepage是3，意味着在单个浏览用户的生命周期内，查看详情的操作会比浏览首页更频繁。

4. 互动用户链路 (tasks/interactor_tasks.py)这类用户在浏览基础上，增加了点赞、评论等互动操作，因此必须处于登录状态。

# tasks/interactor_tasks.py from locust import task, between, HttpUser from common.config import config from common.auth import login_and_get_token from common.data_helper import test_data import random class InteractorUser(HttpUser): """ 模拟互动用户：25%的权重。 行为：登录 -> 浏览 -> 点赞 -> 评论/收藏。 所有操作都需要认证。 """ wait_time = between(3, 8) # 互动操作间隔稍长 host = config.HOST def on_start(self): """互动用户必须登录""" # 从预设的用户池中随机选择一个账号登录（实际项目应从文件读取） self.username = f"interactor_{random.randint(1, 100)}" self.token = login_and_get_token(self, self.username, "test_password") if not self.token: # 如果登录失败，停止这个虚拟用户，避免发出大量失败请求 self.stop(True) @task(4) def browse_and_interact(self): """核心互动流程：先看一篇文章，然后进行随机互动""" article_id = test_data.get_random_article_id() # 1. 查看文章详情 with self.client.get(f"/api/v1/articles/{article_id}", name="[Interactor]Get_Article_Detail", catch_response=True) as response: if response.status_code != 200: response.failure(f"Failed to get article {article_id} for interaction.") return # 文章都获取失败，后续互动没必要进行 # 假设响应里包含一个`is_liked`字段表示是否已点赞 article_data = response.json().get("data", {}) already_liked = article_data.get("is_liked", False) # 2. 随机选择一种互动行为 action = random.choice(["like", "comment", "collect"]) if action == "like" and not already_liked: # 点赞接口 with self.client.post(f"/api/v1/articles/{article_id}/like", json={}, # 可能不需要body name="[Interactor]Like_Article", catch_response=True) as resp: if resp.status_code in [200, 201]: resp.success() else: resp.failure(f"Like failed. Status: {resp.status_code}") elif action == "comment": # 发表评论 comment_text = test_data.get_random_comment() payload = {"content": comment_text, "articleId": article_id} with self.client.post(f"/api/v1/comments", json=payload, name="[Interactor]Create_Comment", catch_response=True) as resp: if resp.status_code in [200, 201]: resp.success() else: resp.failure(f"Comment failed. Status: {resp.status_code}") elif action == "collect": # 收藏文章 with self.client.post(f"/api/v1/articles/{article_id}/collect", json={}, name="[Interactor]Collect_Article", catch_response=True) as resp: if resp.status_code in [200, 201]: resp.success() else: resp.failure(f"Collect failed. Status: {resp.status_code}") # 如果已经点赞过，这里可以选择跳过或执行其他动作，这里简化处理为无操作 @task(1) def view_notifications(self): """查看个人通知消息""" self.client.get("/api/v1/me/notifications", name="[Interactor]Get_Notifications")

关键点解析：这个类的核心在于browse_and_interact任务。它模拟了一个连贯的用户操作序列：先获取文章详情，再根据文章状态（是否已点赞）和随机数决定下一步的互动行为。这种带条件判断的任务流是Locust代码驱动优势的完美体现，它能更真实地模拟用户决策过程。on_start中的登录失败处理（self.stop(True)）也很重要，它能及时清理无效用户，让压测资源集中在有效请求上。

5. 内容创作者链路 (tasks/creator_tasks.py)这是最重的链路，模拟发布文章、管理评论等操作。

# tasks/creator_tasks.py from locust import task, between, HttpUser, events from common.config import config from common.auth import login_and_get_token import random import time class CreatorUser(HttpUser): """ 模拟内容创作者：5%的权重。 行为：登录 -> 编辑并发布文章 -> 管理评论（置顶/删除） -> 查看数据分析。 操作频率低，但资源消耗大。 """ wait_time = between(30, 120) # 创作间隔很长 host = config.HOST def on_start(self): self.username = f"creator_{random.randint(1, 20)}" # 创作者用户池更小 self.token = login_and_get_token(self, self.username, "test_password") if not self.token: self.stop(True) # 创作者可能有一些草稿或已发布文章列表，这里初始化一个空列表 self.my_article_ids = [] @task(3) def publish_article(self): """发布一篇新文章（这是一个重量级操作）""" title = f"性能测试实战分享 {int(time.time())}" # 用时间戳确保标题唯一 content = "这是一篇由Locust压测脚本自动生成的模拟文章内容。" * 50 # 模拟长内容 payload = { "title": title, "content": content, "tags": ["performance", "testing", "locust"], "categoryId": random.randint(1, 5) } # 发布文章可能耗时较长，可以单独设置超时 with self.client.post("/api/v1/articles", json=payload, timeout=config.REQUEST_TIMEOUT * 3, # 发布接口超时设长一点 name="[Creator]Publish_Article", catch_response=True) as response: if response.status_code == 201: article_id = response.json().get("data", {}).get("id") if article_id: self.my_article_ids.append(article_id) # 记录自己发布的文章 # 限制列表长度，避免内存无限增长 if len(self.my_article_ids) > 10: self.my_article_ids.pop(0) response.success() else: response.failure(f"Publish failed. Status: {response.status_code}, Resp: {response.text}") @task(2) def manage_article(self): """管理已有文章：编辑或删除一篇自己的文章""" if not self.my_article_ids: # 如果还没有发布过文章，则跳过这个任务，去执行发布 self.publish_article() return article_id = random.choice(self.my_article_ids) action = random.choice(["edit", "delete"]) if action == "edit": # 编辑文章 new_title = f"【已更新】性能测试实战分享 {int(time.time())}" payload = {"title": new_title} self.client.patch(f"/api/v1/articles/{article_id}", json=payload, name="[Creator]Edit_Article") else: # 删除文章 with self.client.delete(f"/api/v1/articles/{article_id}", name="[Creator]Delete_Article", catch_response=True) as response: if response.status_code in [200, 204]: response.success() # 从本地列表中移除 if article_id in self.my_article_ids: self.my_article_ids.remove(article_id) else: response.failure(f"Delete failed. Status: {response.status_code}") @task(1) def view_analytics(self): """查看创作数据分析""" self.client.get("/api/v1/me/analytics?type=article", name="[Creator]Get_Analytics")

深度解析：CreatorUser类的wait_time设置得很长（30-120秒），因为真实场景中创作者不会频繁发帖。这里引入了用户状态保持的概念：self.my_article_ids列表用于记录这个虚拟用户自己发布的文章ID，从而在后续的manage_article任务中能够对自己发布的内容进行操作。这模拟了真实用户的数据关联性。同时，注意对列表大小的管理，防止在长时间压测中内存泄漏。

6. 主入口文件 (locustfile.py)这是Locust的启动入口，负责将我们定义的多条链路组合起来。

# locustfile.py from tasks.browser_tasks import BrowserUser from tasks.interactor_tasks import InteractorUser from tasks.creator_tasks import CreatorUser from common.config import config # 这是Locust识别用户类的列表。 # 注意：这里的权重是在`config.USER_CLASS_WEIGHTS`中全局控制的。 # 在Locust Web UI或命令行中，我们需要通过`--users`和权重比例来启动不同数量的用户。 # 更精细的控制可以通过覆盖`HttpUser.weight`属性，但这里我们采用配置中心化的方式。 # 为了在Web UI中能清晰区分，我们可以给类设置一个描述性名称 BrowserUser.weight = config.USER_CLASS_WEIGHTS["BrowserUser"] InteractorUser.weight = config.USER_CLASS_WEIGHTS["InteractorUser"] CreatorUser.weight = config.USER_CLASS_WEIGHTS["CreatorUser"] # 暴露用户类列表 users = [BrowserUser, InteractorUser, CreatorUser] # 可选：添加一些测试生命周期事件监听器，用于更高级的控制和监控 from locust import events @events.init_command_line_parser.add_listener def add_my_arguments(parser): """添加自定义命令行参数""" parser.add_argument("--target-host", type=str, env_var="TARGET_HOST", default=config.HOST, help="Target host to test") @events.test_start.add_listener def on_test_start(environment, **kwargs): """测试开始时触发""" print(f"性能测试开始！目标主机：{environment.host}") print(f"用户权重配比：浏览者({BrowserUser.weight}) : 互动者({InteractorUser.weight}) : 创作者({CreatorUser.weight})") @events.test_stop.add_listener def on_test_stop(environment, **kwargs): """测试结束时触发""" print("性能测试结束。")

4. 执行压测与结果分析实战

4.1 如何启动多链路压测

脚本写好了，怎么跑起来？有两种主要方式：

方式一：使用Web UI（适合调试和中小规模压测）

# 在项目根目录下执行 TARGET_HOST=https://your-test-env.com locust -f locustfile.py

执行后，打开浏览器访问http://localhost:8089，你会看到Locust的Web界面。

Number of users：设置要模拟的总用户数（例如 1000）。
Spawn rate：设置每秒启动多少个用户（例如 20，表示每秒启动20个用户，直到达到1000）。
Host：这里会自动读取环境变量或配置，也可以手动覆盖。
点击Start swarming。

关键点：在UI界面，你会看到BrowserUser，InteractorUser，CreatorUser三个用户类。Locust会根据我们之前在类上设置的weight属性（70， 25， 5）来按比例生成这些用户。总用户数1000人，最终大致会生成700个浏览用户、250个互动用户和50个创作者用户，并且各类用户会独立、并发地执行自己定义的任务序列。

方式二：无头模式命令行执行（适合自动化、CI/CD集成和大规模压测）

# 指定用户数、启动速率、运行时间，不启动Web UI TARGET_HOST=https://your-test-env.com locust -f locustfile.py \ --headless \ --users 2000 \ # 总用户数 --spawn-rate 50 \ # 每秒启动50用户 --run-time 5m \ # 运行5分钟 --html report.html \ # 生成HTML报告 --csv full_stats # 生成CSV格式统计数据（会生成多个CSV文件）

这种方式适合在服务器上执行自动化压测，并将结果报告保存下来分析。

4.2 结果分析与关键指标解读

压测跑起来后，重点看哪些数据？Locust的Web UI和报告提供了丰富的数据，对于多链路压测，我们需要分层解读：

全局概览（Total）：
- RPS (Requests per second)：每秒总请求数。这是系统吞吐量的核心指标。观察其随着用户数上升的变化曲线，直到达到瓶颈。
- Failure %：总失败率。必须密切关注，一旦超过1%（根据业务要求），就需要立即分析原因。
- Response Times (Avg, 50%, 95%, 99%)：平均、中位数、95分位、99分位响应时间。95分位和99分位响应时间（P95， P99）是衡量用户体验稳定性的黄金指标。即使平均响应时间很好，如果P99很高，说明有少量用户经历了不可接受的延迟。
分链路分析（按用户类/请求名称筛选）：这是多链路压测的精髓。在Locust UI的“Statistics”标签页，你可以通过筛选器查看特定用户类（如CreatorUser）或特定请求（如[Creator]Publish_Article）的数据。
- 定位瓶颈链路：对比不同链路（BrowserUservsCreatorUser）的响应时间和失败率。通常，写操作（发布、删除）的链路会更慢，失败率也可能更高。如果浏览链路也变慢，可能是公共资源（如首页查询的数据库或缓存）遇到了瓶颈。
- 定位瓶颈接口：在CreatorUser链路内部，比较发布文章、编辑文章、删除文章几个接口的响应时间。耗时最长的那个就是需要优先优化的接口。
图表分析（Charts）：
- 总RPS与用户数曲线：理想情况下，RPS应随用户数线性增长。当曲线趋于平缓时，说明系统已达到吞吐量极限。
- 响应时间百分位图：观察P95、P99响应时间曲线是否平稳。如果随着压力增加而急剧上升，说明系统在高压下稳定性变差。

5. 常见问题、排查技巧与进阶优化

5.1 实战中踩过的坑与解决方案

问题1：Token过期或失效导致大量401错误。

现象：压测运行一段时间后，互动用户和创作者用户的请求开始大量失败，状态码为401。
根因：登录获取的Token有有效期，脚本中没有处理Token续期或重新登录的逻辑。

解决方案：

方案A（推荐）：在HttpUser类中实现一个on_request或on_response钩子，检查响应状态码。如果是401，则触发重新登录流程，更新Token，并重试失败的请求（注意避免无限重试）。

# 在InteractorUser或CreatorUser类中添加 from locust import task, between, HttpUser, events class InteractorUser(HttpUser): ... def on_response(self, response): if response.status_code == 401: print(f"用户 {self.username} Token失效，尝试重新登录...") success = self.re_login() if success: # 可以在这里尝试重试原请求，但Locust原生不支持，通常记录日志后继续即可 self.environment.events.request.fire( request_type=response.request_type, name=response.name, response_time=0, # 重试不计入响应时间 response_length=0, exception=None, context=self.context, ) else: # 重新登录失败，停止该用户 self.stop(True) def re_login(self): # 重新登录逻辑 self.token = login_and_get_token(self, self.username, "test_password") return bool(self.token)

方案B：使用服务端颁发的Refresh Token机制，在压测脚本中实现定时刷新。

问题2：测试数据（如文章ID）快速耗尽，导致后续请求无效。

现象：压测初期正常，运行几分钟后，view_article_detail等依赖article_id的请求开始大量失败（404）。
根因：test_data.get_random_article_id()从一个固定的ID列表中随机选取，但列表可能包含无效或已被删除的ID。或者，列表本身太小，在高并发下被快速遍历完。
解决方案：
- 扩大数据池：准备上万甚至百万量级的测试数据ID，并确保它们在被测环境中真实有效。
- 实现数据健康检查：在压测开始前或定期运行一个后台任务，抽样检查数据ID的有效性，并从池中移除无效ID。
- 使用参数化与数据生成：对于CreatorUser发布文章，标题和内容可以使用faker库动态生成，完全避免数据冲突和耗尽问题。

问题3：分布式压测时，Worker节点报错或数据不同步。

现象：使用--master和--worker模式时，Worker节点无法启动，或执行任务时找不到共享数据。
根因：Locust的Worker节点是独立进程，它们不会自动共享主进程内存中的数据。common.data_helper中的TestDataManager类变量在每个Worker进程中是独立的。
解决方案：
- 使用文件或网络存储：将测试数据（如ID列表）放在共享文件系统（如NFS）或Redis中，所有Worker从同一数据源读取。
- 在on_test_start中初始化数据：利用events.test_start事件，在Master节点上准备好数据文件，并确保每个Worker都能访问到该文件路径。
- 简化数据依赖：对于只读的ID列表，如果数据量不大，可以在每个Worker的on_start方法中独立加载一份，虽然有多份拷贝，但保证了可用性。

5.2 性能优化与高级技巧

连接池与Keep-Alive：Locust的HttpUser底层使用requests.Session，默认启用了连接保持（Keep-Alive）。确保你的被测服务也支持并正确配置了Keep-Alive，这能极大减少TCP连接建立的开销，提升压测机效率和模拟的真实性。
合理设置等待时间（wait_time）：wait_time = between(2, 5)表示每个任务执行后，虚拟用户会等待2到5秒再执行下一个。这个值需要根据真实用户操作间隔来设定。设置过短会给系统施加不切实际的压力；设置过长则无法在有限时间内产生足够压力。建议通过生产环境的日志分析，计算关键业务操作的平均间隔时间。
使用FastHttpUser提升性能：如果压测目标是纯HTTP/HTTPS服务，并且你遇到了单机模拟用户数上限的问题，可以尝试使用FastHttpUser替代HttpUser。它是Locust的一个扩展，使用geventhttpclient，性能更高，但功能稍少（如不支持catch_response的某些高级用法）。
```
from locust import task, between from locust.contrib.fasthttp import FastHttpUser class FastBrowserUser(FastHttpUser): wait_time = between(1, 3) @task def index(self): self.client.get("/")
```
集成实时监控：Locust本身不监控服务器资源。你需要将Locust的测试数据（如RPS、响应时间）与你服务器的监控系统（如Prometheus采集的CPU、内存、JVM GC、数据库连接池指标）的时间轴对齐。可以通过Locust的events钩子，将自定义指标发送到InfluxDB或Prometheus PushGateway，然后在Grafana中制作统一的监控大盘。这样才能在系统出现瓶颈时，快速定位是应用代码问题、数据库问题还是中间件问题。
压测场景编排：对于更复杂的场景，如“先匀速增压，再保持峰值压力10分钟，最后阶梯式降压”，可以使用Locust的LoadTestShape类来自定义用户数量变化曲线，实现更加精准和符合业务场景的压测模式。

多链路压测不是一蹴而就的，它需要你对业务流有深刻的理解，对数据有细致的准备，对工具有熟练的掌握。从简单的单接口测试，到模拟单一用户路径，再到如今的多链路混合场景，每一步都是让测试更贴近真实的一步。这套代码框架提供了一个坚实的起点，你可以根据自己系统的业务特点，填充更多的链路细节和业务校验，让它成为你保障系统稳定性的有力武器。记住，好的压测，是“演”出来的，而不是“打”出来的。

查看全文

http://www.jsqmd.com/news/1060079/