当前位置：首页 > news >正文

CRMEB商城性能压测实战：从Jmeter脚本到MySQL优化全解析

news 2026/7/2 23:00:28

1. 项目概述：一次真实的商城性能压测之旅

最近在负责一个基于CRMEB Java版开发的电商项目，在功能开发基本完成后，团队面临一个灵魂拷问：系统到底能扛住多少用户同时在线？会不会在促销活动时直接“挂掉”？为了回答这个问题，我们决定进行一次彻底的性能压测，核心工具就是业界广泛使用的Jmeter。这不仅仅是一次“跑个脚本看看”的简单测试，而是一次从零开始，发现问题、定位瓶颈、并最终实施优化的完整实战。整个过程下来，感触颇深，踩了不少坑，也总结了一套行之有效的压测与优化方法论。如果你也在为你的Java应用，特别是像CRMEB这类电商系统的性能而焦虑，那么这篇从实战中沉淀下来的报告和方案，或许能给你提供一条清晰的路径。

2. 压测环境与目标设定

在开始“狂飙”请求之前，搭建一个贴近生产环境的测试环境和设定清晰的压测目标是成功的第一步。漫无目的的压测除了浪费资源，几乎得不到任何有价值的结论。

2.1 测试环境架构

我们的测试环境力求与线上生产环境保持架构一致，但硬件配置按比例缩容，这是成本与效果平衡后的常见做法。

压测客户端：我们使用了两台配置相同的云服务器（4核8G）作为Jmeter控制机+负载生成机。一台作为Controller，负责管理测试计划和收集结果；另一台作为独立的负载生成机（Slave），通过Jmeter分布式测试能力来产生更大的压力。确保客户端资源（CPU、内存、网络）充足，避免其自身成为瓶颈。
被测系统（SUT）：即我们基于CRMEB Java版二次开发的商城系统。部署在一台独立的服务器上（8核16G， CentOS 7.9）。所有服务，包括Spring Boot应用、MySQL数据库、Redis缓存，都部署在这台单机上，以模拟一个中小型初创项目的典型部署方式。这有助于我们更早地暴露单机架构下的瓶颈。
中间件与数据库：
- Nginx 1.18：作为反向代理和静态资源服务器。
- JDK 1.8：运行Spring Boot应用。
- MySQL 5.7：主数据库，存放业务数据。
- Redis 6.2：用作会话存储、商品缓存和热点数据缓存。

注意：压测客户端与被测系统必须部署在不同的机器上，并且最好在同一内网中，以排除公网带宽和延迟的干扰，让测试结果更聚焦于应用本身的性能。

2.2 核心性能指标与目标

我们聚焦于几个关键的业务场景和性能指标：

核心场景：
- 用户登录：高频且涉及密码验证、会话创建。
- 商品列表浏览/搜索：最高频的读操作，涉及数据库查询、缓存命中。
- 商品详情页查看：涉及单商品信息、SKU、评论等复杂查询。
- 购物车添加/更新：涉及写操作和实时计算。
- 提交订单：最核心的写事务，涉及库存校验、订单创建、优惠计算等。
关键性能指标（KPI）：
- 吞吐量（TPS/RPS）：每秒处理的事务数/请求数。这是衡量系统处理能力的核心指标。
- 响应时间（Response Time）：包括平均响应时间、90%分位（P90）、95%分位（P95）和99%分位（P99）。P95和P99更能反映长尾延迟，对用户体验影响巨大。
- 错误率（Error %）：失败请求的百分比。在持续压测下，错误率应接近于0%。
- 资源利用率：服务器CPU使用率、内存使用率、磁盘I/O、网络I/O以及数据库连接数、慢查询等。
压测目标：我们为每个核心接口设定了明确的SLA（服务等级协议）目标，例如：在500并发用户持续压测5分钟的情况下，商品列表接口的P95响应时间需低于200ms，错误率低于0.1%。

3. Jmeter压测脚本设计与实战

工欲善其事，必先利其器。一个设计良好的Jmeter脚本是获取准确数据的基石。

3.1 脚本结构规划

我们没有为每个接口单独创建线程组，而是模拟真实用户操作流，设计了业务场景线程组。

01_用户登录线程组：首先执行，使用CSV Data Set Config读取预先准备好的测试账号（用户名、密码），通过HTTP请求登录，并使用正则表达式提取器或更推荐的JSON提取器，从登录响应中获取token（或sessionId）。这里有个关键点：需要将提取到的token设置为一个JMeter变量（如${userToken}），并通过BeanShell取样器或JSR223取样器（推荐使用Groovy语言，性能更好）将其添加到后续所有请求的HTTP信息头管理器（Header Manager）中，格式通常为Authorization: Bearer ${userToken}或Cookie: token=${userToken}。
02_浏览商品线程组：依赖登录线程组的结果。内部使用随机控制器（Random Controller）来混合“商品列表分页查询”和“随机进入一个商品详情页”两个请求，并设置合理的思考时间（Timer），比如高斯随机定时器，模拟用户阅读时间。
03_购物与下单线程组：这是最复杂的部分。流程包括：添加商品到购物车（需要商品ID、SKU ID）、查看购物车、模拟结算页获取（涉及地址、优惠券）、最终提交订单。这里需要处理多个请求间的参数传递，例如从商品详情页提取的商品ID，需要传递给加车请求。我们大量使用了后置处理器（如JSON提取器）和变量引用来实现。

3.2 参数化与关联技巧

这是让脚本“活”起来的关键。

参数化：使用“CSV数据文件设置”来参数化用户账号、商品ID列表等。确保数据量足够大，避免缓存穿透变成缓存“穿击”（所有请求打向同一个不存在的key）。
关联：除了上述的token关联，在购物流程中，加入购物车后服务器可能会返回一个cartId或itemKey，提交订单时需要这个标识。必须动态提取并传递。
实战心得：对于商品ID这类参数，不要直接从生产库导出然后顺序使用。最好在测试环境准备一批专门的测试商品，并在脚本中随机读取，这样才能真实模拟用户浏览的随机性，避免数据库查询缓存和JVM编译优化带来的“性能假象”。

3.3 监听器与结果分析配置

压测时，监听器的选择至关重要，不当的监听器会消耗大量客户端资源，反而影响压测结果。

在GUI模式设计脚本，在非GUI模式运行压测：这是铁律。GUI模式下的监听器会实时渲染图表，消耗巨大。
结果收集：我们配置了最精简的监听器组合：“聚合报告”和“用表格查看结果”。更重要的是，我们使用命令行压测并将结果输出到JTL文件。
```
jmeter -n -t [测试计划.jmx] -l [结果文件.jtl] -e -o [HTML报告输出目录]
```
命令中的-n代表非GUI模式，-l指定结果文件，-e -o会在压测结束后生成一个非常直观的HTML仪表盘报告，这个报告包含了所有关键指标的图表和表格，是分析的第一手资料。
资源监控：同时，我们在服务器上使用top,vmstat,iostat命令，或更专业的nmon工具，来实时监控系统资源。对于JVM，我们启用GC日志，并使用jstat或Arthas工具来观察内存和GC情况。

4. 压测执行与瓶颈定位实录

我们采用阶梯式增压的方式，逐步逼近系统的极限。

4.1 压测执行策略

基准测试：单用户、低并发运行脚本，确认所有业务流程正确无误，并获取一个基线响应时间。
负载测试：以目标并发数（如100、300、500）分别进行持续5-10分钟的压测，观察系统在预期负载下的表现。
压力测试：逐步增加并发用户数（如800、1000），直到系统吞吐量不再增长甚至下降，或错误率显著上升，从而找到系统的性能拐点。
稳定性测试（耐力测试）：在某个高负载（如目标并发的1.2倍）下，持续压测30分钟到数小时，观察系统是否有内存泄漏、响应时间是否逐渐变长等问题。

4.2 首次压测暴露的核心瓶颈

在并发用户数达到300左右时，我们观察到以下现象：

现象1：商品列表和详情页接口的响应时间曲线开始陡增，P95从50ms飙升至800ms以上。
现象2：服务器CPU使用率并不高（约60%），但数据库所在服务器的CPU使用率接近100%。
现象3：通过Jmeter的聚合报告和服务器监控，发现大量请求的响应时间不稳定，错误率虽未明显上升，但用户体验已不可接受。
定位过程：
- 首先查看应用日志，发现大量数据库查询的WARN日志。
- 登录MySQL服务器，执行show processlist;，发现大量SELECT语句处于Sending data或Creating sort index状态，且执行时间很长。
- 开启MySQL慢查询日志（slow_query_log），压测后分析，发现罪魁祸首是几个关联了5-6张表、且未合理使用索引的商品查询SQL。特别是列表页的分页查询SELECT ... FROM product ... LEFT JOIN ... WHERE ... ORDER BY ... LIMIT x, y，在深度分页（y较大）时性能极差。

5. 系统性瓶颈优化方案

定位到问题后，我们制定并实施了一套从数据层到应用层的优化组合拳。

5.1 数据库层优化

这是本次性能提升最显著的一环。

SQL优化与索引重建：
- 避免深度分页：将LIMIT 10000, 20这种查询，改为基于上一次查询最大ID的WHERE id > last_max_id LIMIT 20方式。对于CRMEB这类需要复杂条件筛选的场景，我们采用了“延迟关联”优化。
```
-- 优化前（深度分页，性能差） SELECT * FROM product WHERE category_id=1 ORDER BY create_time DESC LIMIT 100000, 20; -- 优化后（先查ID，再回表） SELECT * FROM product INNER JOIN ( SELECT id FROM product WHERE category_id=1 ORDER BY create_time DESC LIMIT 100000, 20 ) AS tmp USING(id);
```
- 创建复合索引：根据慢查询日志，为WHERE,ORDER BY,GROUP BY子句中的高频字段创建联合索引。例如，为(category_id, status, create_time)创建索引。特别注意索引顺序，要符合最左前缀原则。
- 减少不必要的列：将SELECT *改为只查询需要的字段，减少网络传输和内存占用。
引入缓存：
- Redis缓存热点数据：将首页配置、分类信息、热门商品详情等变化不频繁的数据放入Redis，设置合理的过期时间。对于商品详情，使用商品ID作为Key。
- 缓存策略升级：采用“缓存+数据库”的读写策略。对于商品列表这种复杂查询，我们甚至使用了“缓存结果集”的方式，将第一页到第N页的查询结果直接序列化后存入Redis，牺牲一定的实时性换取极高的吞吐量。同时，通过消息队列监听商品更新事件，来异步刷新缓存。
数据库连接池调优：检查并调大了应用（如Druid或HikariCP）的连接池最大连接数，确保在高并发下不会因为等待连接而阻塞。同时监控了连接池的活跃连接数、等待线程数等指标。

5.2 应用层（Java）优化

JVM调优：通过GC日志分析，发现应用在压测中发生了多次Full GC。我们调整了JVM启动参数：
- 将堆内存从默认值调整为明确指定：-Xms2g -Xmx2g，避免堆动态扩容带来的性能波动。
- 根据服务器内存情况，设置了新生代和老年代的比例（-XX:NewRatio），并使用了G1垃圾收集器（-XX:+UseG1GC），以降低GC停顿时间对高并发请求的影响。
代码与框架优化：
- 避免循环内数据库操作：审查代码，将一些在for循环中执行单条查询的逻辑，改为通过IN语句一次性批量查询。
- 使用异步与非阻塞：对于非核心的日志记录、通知发送等操作，改用@Async异步执行或提交到线程池，不阻塞主请求线程。
- 优化序列化：检查发现部分RPC或缓存序列化使用了Java原生序列化，效率较低。将其替换为Kryo或FastJSON（需注意安全）等高效序列化工具。

5.3 架构与部署优化

读写分离：考虑未来流量增长，我们规划了MySQL主从复制，将报表查询、非实时性读请求路由到从库，减轻主库压力。
静态资源分离：将商品图片、CSS、JS等静态资源完全托管到对象存储（如OSS）或CDN，大幅减轻应用服务器和带宽的压力。
服务拆分：从CRMEB的单体架构中，识别出“用户服务”、“商品服务”、“订单服务”等边界，为未来向微服务架构演进、独立扩缩容做准备。

6. 优化效果验证与常见问题排查

完成上述优化后，我们重新执行了压测脚本。

6.1 优化前后数据对比

指标	优化前 (300并发)	优化后 (300并发)	优化后 (500并发)	提升说明
商品列表接口 P95响应时间	820 ms	120 ms	180 ms	主要受益于SQL优化、索引和结果缓存
商品详情接口 P95响应时间	650 ms	80 ms	130 ms	主要受益于Redis缓存
下单接口 TPS	15	45	38	事务性接口，提升受限于数据库写能力和业务逻辑
系统整体吞吐量 (RPS)	~280	~950	~1200	综合优化效果体现
数据库服务器CPU使用率	98%	40%	65%	查询负载显著降低
应用服务器Full GC频率	每2分钟1次	压测期间未发生	压测期间未发生	JVM调优效果明显

6.2 压测中遇到的典型问题与解决

Jmeter自身报错：“java.net.BindException: Address already in use”
- 问题：在高并发压测时，Jmeter客户端会出现大量连接错误。
- 原因：客户端机器可用端口耗尽。TCP连接关闭后进入TIME_WAIT状态，默认持续60秒，导致端口无法立即复用。
- 解决：在Jmeter客户端机器上修改系统参数，快速回收TIME_WAIT连接。
```
# 编辑 /etc/sysctl.conf net.ipv4.tcp_tw_reuse = 1 net.ipv4.tcp_tw_recycle = 1 # 注意：在NAT网络下此参数可能导致问题，新内核已废弃 net.ipv4.tcp_fin_timeout = 30 # 减小FIN_WAIT2超时时间 # 执行 sysctl -p 生效
```
  更根本的方法是使用Jmeter分布式压测，将压力分摊到多台负载生成机。
“抱歉，您的请求来路不正确或表单验证串不符”
- 问题：在压测提交订单等表单时，系统返回此类错误。
- 原因：这是CRMEB等系统常见的防CSRF（跨站请求伪造）机制在作祟。表单中通常包含一个由服务器生成的、一次性的token（可能叫form_token,csrf_token），在提交时需要一并带回验证。Jmeter直接录制回放时，使用的是旧的、已失效的token。
- 解决：
  - 在访问包含表单的页面（如结算页）时，使用正则表达式提取器或CSS选择器提取器，从HTML响应体中抓取这个token的值。
  - 将这个值保存为一个JMeter变量（如${csrf_token}）。
  - 在提交表单的HTTP请求中，将这个变量作为参数（通常是隐藏域）一起提交。
  - 关键点：务必理清业务流，确保每个用户会话（线程）独立获取和使用自己的token。
TPS上不去，但服务器资源还很空闲
- 问题：并发数增加，TPS却持平，CPU、内存、网络IO都未吃满。
- 排查：
  - 检查应用线程池：可能是应用内业务线程池或Web服务器（如Tomcat）的工作线程数配置过小，导致请求在队列中等待。调整server.tomcat.max-threads参数。
  - 检查数据库连接池：同上，连接数不足会导致大量线程在等待获取数据库连接。
  - 检查外部依赖：你的应用是否调用了某个响应很慢的外部接口？使用Arthas的trace命令或SkyWalking等APM工具，追踪一个慢请求的完整调用链，定位耗时最长的环节。
  - 检查锁竞争：是否存在数据库行锁、表锁，或应用内的同步锁（synchronized）导致线程串行化？检查数据库锁信息和Java线程Dump。

性能优化是一个持续的过程，没有一劳永逸的银弹。本次针对CRMEB商城的压测和优化，让我们深刻理解了“测量-定位-优化-验证”这个循环的重要性。工具（Jmeter）只是手段，核心是对系统架构和代码行为的深刻洞察。建议将性能测试纳入日常开发流程，在每次重大功能上线或架构变更前都进行回归压测，才能持续保障系统的稳定与流畅。

查看全文

http://www.jsqmd.com/news/1111704/