当前位置：首页 > news >正文

Playwright 5种性能配置基准对比与选型指南

news 2026/7/22 9:28:07

1. 为什么一个Playwright测试框架的性能基准测试值得单独写一篇长文？

你有没有遇到过这样的情况：团队刚把E2E测试从Cypress迁到Playwright，CI流水线里跑完全部用例的时间反而从8分钟涨到了12分钟？或者在本地调试时，明明只改了一行断言，npx playwright test --project=chrome却要等15秒才真正开始执行？更让人困惑的是，同事A的MacBook Pro M3上跑得飞快，而你的Windows台式机（i7-10700K + 32GB内存）却频繁卡在browserType.launch()这一步——不是报错，就是“假死”，CPU占用率忽高忽低，像在呼吸。

这不是玄学，是配置层面对性能的隐性绑架。Playwright本身不提供开箱即用的“高性能模式”，它把选择权交给了使用者：你是要最接近真实用户的浏览器行为（启用所有扩展、GPU加速、完整渲染管线），还是追求极致的测试吞吐量（禁用渲染、跳过网络缓存、复用进程）？这中间没有标准答案，只有具体场景下的权衡。而“mcp-playwright”这个名称里的“mcp”，正是我们团队内部对“Multi-Config Playwright”的简称——它不是一个新库，而是一套围绕Playwright官方API封装的、可插拔的配置管理策略。我们不修改Playwright内核，只在启动参数、上下文生命周期、页面加载策略、资源拦截规则这四个关键杠杆上做精细化调控。

本文标题中的“5种配置”，不是随便凑数。它们分别对应着五类典型生产环境：本地快速验证（dev-fast）、CI流水线稳定压测（ci-stable）、高并发UI回归（regression-heavy）、低资源容器化部署（container-light）、跨浏览器兼容性兜底（compat-fallback）。每一种配置背后，都藏着至少3个核心参数的协同调整逻辑，而这些参数之间存在非线性的耦合效应——比如把headless: true和channel: 'chrome'组合使用，在某些Linux发行版上会触发Chromium的沙箱冲突，导致启动延迟飙升400%，但换成channel: 'msedge'就完全正常。这种细节，官方文档不会告诉你，Stack Overflow上的零散回答往往互相矛盾，只有通过系统性、可复现的基准测试，才能摸清边界。

所以，这不是一篇“如何安装Playwright”的入门指南，而是一份面向中高级测试工程师与SRE的实操手册。如果你正在为测试执行时间不可控而焦虑，如果你的测试报告里“平均响应时间”指标波动超过±35%，如果你需要向架构委员会证明“为什么我们要为CI节点额外申请4GB内存”——那么接下来的每一组数据、每一个配置片段、每一次失败重试的堆栈分析，都是为你准备的。我们不讲抽象理论，只呈现真实机器上跑出来的毫秒级差异，以及这些差异背后，那些被忽略的底层机制。

2. mcp-playwright的5种配置设计逻辑与核心参数解剖

在深入数据之前，必须先厘清这5种配置不是拍脑袋定的，而是基于我们过去18个月在6个不同业务线（电商主站、SaaS后台、IoT设备管理平台、金融风控看板、教育直播App、跨境物流追踪系统）的落地经验反向提炼出来的。每一种配置，都解决一组特定的、高频出现的性能瓶颈。下面我将逐个拆解其设计目标、关键参数取舍逻辑，以及为什么这些参数组合在一起会产生预期效果。

2.1 配置一：dev-fast（本地开发快速反馈）

核心诉求：让开发者在保存代码后，能在3秒内看到测试结果，牺牲部分环境保真度换取极致响应速度。

headless: false：这是唯一允许图形界面的配置。很多人误以为headless: true一定更快，但在M系列芯片Mac上，开启GUI反而能利用Metal加速器进行更高效的合成，实测比headless: true快12%。关键在于配合--disable-gpu-sandbox启动参数（通过launchOptions.args注入），绕过沙箱初始化的耗时。
slowMo: 100：表面看是“慢动作”，实则是为开发者提供视觉确认窗口。它不增加总耗时，只是把操作间隔拉长，让肉眼能看清元素高亮、输入焦点切换等过程，避免因“太快没看清”而反复重跑。
traces: false：禁用所有trace录制。Trace文件虽小，但每次page.goto()都会触发一次磁盘I/O写入，本地开发时纯属冗余开销。
ignoreHTTPSErrors: true：开发环境常有自签名证书，此参数避免SSL握手失败导致的30秒超时重试。

提示：该配置严禁用于CI。headless: false在无GUI的Linux服务器上会直接崩溃，且slowMo会显著拖慢批量执行。

2.2 配置二：ci-stable（CI流水线稳定压测）

核心诉求：在资源受限的CI节点（如GitHub Actions 2-core/7GB）上，保证95%的用例在10秒内完成，且结果高度可复现，杜绝“偶发性超时”。

headless: true：CI环境无显示设备，必须启用无头模式。
channel: 'chromium'：官方预编译二进制，启动最快（比'chrome'快2.3倍），且版本锁定明确，避免Chrome自动更新导致的兼容性断裂。
args: ['--no-sandbox', '--disable-setuid-sandbox', '--disable-dev-shm-usage']：这是Linux容器环境的黄金三件套。--no-sandbox禁用沙箱（CI环境安全模型不同），--disable-setuid-sandbox防止权限提升失败，--disable-dev-shm-usage强制使用/tmp而非/dev/shm（后者在Docker默认配额仅64MB，易满）。
timeout: 30000：全局超时设为30秒，高于单用例平均耗时（8.2秒）的3.5倍，留足网络抖动缓冲。

注意：--no-sandbox在生产环境绝对禁止，但CI是隔离沙箱，风险可控。我们曾因漏掉--disable-dev-shm-usage，导致20%的CI任务在browser.newContext()阶段卡死，日志显示Failed to allocate shared memory。

2.3 配置三：regression-heavy（高并发UI回归）

核心诉求：在专用回归测试集群（16核/64GB）上，并行运行200+用例，最大化CPU与内存利用率，总耗时压缩至最低。

use: { launchOptions: { headless: true, channel: 'chromium', args: [...] } }：采用Playwright的testProject多项目配置，而非browserType.launch()硬编码。这样可在同一进程内复用Browser实例，避免重复fork子进程的开销。
workers: 8：Worker数设为物理核心数的一半（16核→8）。实测发现，设为12时，因上下文切换开销增大，总耗时反增7%；设为4时，CPU利用率仅45%，资源浪费严重。
retries: 1：允许单次失败重试，但不超过1次。过多重试会放大排队延迟，且回归测试本应追求“一次通过”。
webServer: { command: 'npm run start:mock', port: 3000, timeout: 120000 }：前置启动Mock服务，确保所有测试用例访问的是本地Mock API，彻底规避网络IO不确定性。

2.4 配置四：container-light（低资源容器化部署）

核心诉求：在Kubernetes Pod（2核/2GB内存）中稳定运行，内存峰值<1.5GB，启动时间<5秒。

channel: 'webkit'：这是最关键的取舍。虽然WebKit渲染引擎功能不如Chromium全面，但其内存 footprint 小40%，启动快1.8倍。对于只验证DOM结构、事件绑定、基础路由的轻量级测试，完全够用。
launchOptions: { headless: true, args: ['--no-sandbox', '--disable-gpu'] }：--disable-gpu强制禁用GPU加速，避免在低配容器中触发OpenGL驱动初始化失败（常见于Alpine Linux）。
viewport: { width: 1280, height: 720 }：固定视口尺寸，避免Playwright动态探测屏幕分辨率带来的微小延迟。
ignoreHTTPSErrors: true：容器内常通过Ingress暴露HTTPS，但测试时直连Pod IP走HTTP，此参数避免协议不匹配错误。

踩坑实录：最初选用'firefox'通道，启动时频繁OOMKilled。pstack抓取堆栈发现，Firefox在初始化WebRender时会预分配大量内存页。切换到WebKit后，内存曲线平滑，峰值稳定在1.2GB。

2.5 配置五：compat-fallback（跨浏览器兼容性兜底）

核心诉求：当Chrome/Chromium测试通过，但用户反馈Edge或Safari下功能异常时，能快速复现并定位，不求快，但求“像”。

channel: 'msedge'或'webkit'：显式指定通道，而非依赖系统PATH。'msedge'需提前在CI镜像中安装Edge，'webkit'则需playwright install webkit。
launchOptions: { headless: false, slowMo: 500 }：保留GUI与慢动作，便于人工观察渲染差异（如Flex布局在Safari中的换行bug）。
bypassCSP: true：绕过内容安全策略，避免因第三方CDN脚本（如Google Analytics）加载失败导致页面白屏。
extraHTTPHeaders: { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.6 Safari/605.1.15' }：精确伪造UA，触发网站端的浏览器特异性逻辑。

这五种配置，构成了一个完整的性能光谱。它们不是互斥的，而是可以按需组合：例如，ci-stable作为基线，regression-heavy在其基础上调高worker数，container-light则是在ci-stable参数上替换channel并精简args。理解每一条参数背后的“为什么”，比记住配置本身重要十倍。

3. 基准测试环境搭建与数据采集方法论

再完美的配置，若测试环境不干净、数据采集不严谨，结果就是垃圾进、垃圾出。我们花了整整两周时间打磨这套基准测试流程，核心原则只有一条：让变量尽可能少，让噪声尽可能可测量。下面详细说明我们的硬件、软件、脚本与数据清洗逻辑。

3.1 硬件与操作系统：拒绝“我的电脑很卡”式归因

所有测试均在同一台物理服务器上完成，排除了不同机器间CPU微架构、内存带宽、SSD IOPS的差异干扰。具体配置如下：

组件	规格	说明
CPU	AMD EPYC 7402P (24核/48线程)	关闭所有节能模式（`cpupower frequency-set -g performance`），锁频至基准频率3.35GHz，避免睿频波动影响计时
内存	128GB DDR4 ECC	测试前执行`sync && echo 3 > /proc/sys/vm/drop_caches`，清空PageCache、dentries和inodes
存储	2TB NVMe SSD (Samsung 980 Pro)	使用独立分区`/mnt/testdisk`，格式化为XFS，挂载选项`noatime,nodiratime,logbufs=8`，消除日志写入抖动
OS	Ubuntu 22.04.3 LTS (Kernel 5.15.0-86)	禁用`systemd-resolved`，改用`/etc/resolv.conf`直连8.8.8.8，规避DNS解析延迟

关键控制点：我们从未在笔记本或虚拟机上跑基准测试。笔记本的散热 throttling、VM的CPU调度抢占，会让browserType.launch()的耗时标准差高达±200ms，而物理服务器可稳定在±5ms内。这是数据可信的第一道门槛。

3.2 测试用例集：覆盖真实世界复杂度的“压力探针”

我们没有使用Playwright官方的example.spec.ts，而是构建了一个分层式测试套件，包含三个层级的用例，模拟真实业务场景：

L1 - 原子操作（Atomic）：共50个用例，每个只执行单一动作，如await page.click('#login-btn')、await expect(page).toHaveURL(/\/dashboard/)。用于测量基础API开销。
L2 - 事务流（Transaction）：共20个用例，模拟用户完整路径，如“登录→搜索商品→加入购物车→结算→支付成功”。每个用例含3-7个页面跳转与交互，考察上下文复用与网络请求链路。
L3 - 渲染压力（Rendering）：共10个用例，加载含1000+ DOM节点、3个Canvas动画、2个WebGL场景的复杂页面，执行page.waitForLoadState('networkidle')后截图并校验像素差异。专测GPU与渲染管线。

所有用例均使用test.use({ storageState: 'auth.json' })复用登录态，避免重复登录消耗。auth.json由npx playwright auth生成，确保凭证一致。

3.3 数据采集脚本：不止记录“总耗时”，更要解剖“时间切片”

我们编写了一个定制化的benchmark-runner.ts，它不依赖Playwright Test Runner的内置Reporter，而是深度Hook其生命周期事件：

// benchmark-runner.ts 核心逻辑节选 import { chromium, firefox, webkit, FullConfig, Reporter, TestCase, TestResult } from '@playwright/test'; export default class BenchmarkReporter implements Reporter { onTestEnd(test: TestCase, result: TestResult) { // 捕获每个阶段的精确耗时（毫秒） const metrics = { launchTime: result.duration - result.startTime, // 浏览器启动耗时 contextCreateTime: result.steps.find(s => s.title === 'create context')?.duration || 0, pageCreateTime: result.steps.find(s => s.title === 'create page')?.duration || 0, gotoTime: result.steps.find(s => s.title === 'goto')?.duration || 0, actionTime: result.steps.find(s => s.title === 'click')?.duration || 0, assertionTime: result.steps.find(s => s.title === 'expect')?.duration || 0, cleanupTime: result.steps.find(s => s.title === 'teardown')?.duration || 0, }; // 写入CSV，包含配置名、用例名、各阶段耗时、内存峰值（通过browser.process().memoryUsage()获取） } }

关键创新点在于：我们测量了browserType.launch()之后的每一个子步骤，而不仅是test.duration。因为launch()可能占总耗时的60%，但goto()的网络延迟、click()的等待元素可见、expect()的轮询检查，才是业务逻辑真正的瓶颈。一份完整的CSV记录包含27个字段，例如：

config	case	launchTime	contextCreateTime	gotoTime	clickTime	expectTime	memoryPeakMB	cpuAvgPct
ci-stable	L2-login-flow	1245	87	2103	156	89	1120	42.3

实测心得：仅看test.duration会掩盖真相。我们曾发现regression-heavy配置下，gotoTime比ci-stable高30%，原因是其webServer启动了Mock，但Mock服务响应慢。这提示我们：测试框架的性能，永远是整个技术栈的性能，不能只盯着Playwright。

3.4 数据清洗与统计：剔除“离群值”，聚焦“典型值”

原始数据采集后，我们执行严格的清洗流程：

剔除首轮热身数据：每种配置运行3轮，仅取第2、3轮数据。首轮包含JIT编译、磁盘预热等一次性开销。
识别并移除离群值（Outlier）：对每个用例的launchTime，计算IQR（四分位距），将Q1 - 1.5*IQR以下或Q3 + 1.5*IQR以上的值标记为离群，人工检查原因（如系统临时GC、后台进程抢占）。本次测试共剔除23条记录（占总数0.8%）。
加权平均计算：不简单取算术平均。L1用例权重0.2，L2权重0.5，L3权重0.3，反映真实业务中各类用例的分布比例。
置信区间标注：所有最终图表均标注95%置信区间（CI），公式为mean ± 1.96 * (stdDev / sqrt(n))，n=200（有效样本数）。

这套方法论确保了后续所有对比分析，不是“某次运气好”，而是具有统计显著性的结论。当你看到“container-light比ci-stable快1.7倍”，这个数字背后是200次重复实验、严格清洗、置信区间验证的结果。

4. 5种配置效率对比：从启动耗时到内存占用的全维度剖析

现在，让我们直面核心数据。以下所有图表均基于前述严苛环境与方法论生成，单位为毫秒（ms），误差棒为95%置信区间。我们将从四个最关键的维度展开：浏览器启动耗时（Launch Time）、页面加载耗时（Goto Time）、交互操作耗时（Action Time）、内存峰值占用（Memory Peak）。每个维度都揭示了不同配置的底层行为差异。

4.1 维度一：浏览器启动耗时（Launch Time）——谁在“冷启动”时抢跑？

这是所有测试的起点，也是最容易被忽视的瓶颈。browserType.launch()看似简单，实则涉及进程创建、沙箱初始化、GPU上下文建立、字体缓存加载等数十个步骤。下图展示了5种配置在200次重复测试中的平均启动耗时：

配置	平均启动耗时 (ms)	95% CI (ms)	相对于ci-stable的倍数
dev-fast	1,842	±12	1.48x
ci-stable	1,245	±8	1.00x (基准)
regression-heavy	1,268	±9	1.02x
container-light	692	±6	0.56x
compat-fallback	2,105	±15	1.69x

关键洞察：

container-light（WebKit）以692ms遥遥领先，比基准快45%。这印证了WebKit的轻量化设计——它没有Chromium庞大的Blink渲染引擎和V8 JIT编译器，启动路径极短。
compat-fallback（MS Edge）最慢，2105ms。Edge基于Chromium，但其启动流程额外加载了Microsoft特有的Telemetry、Defender集成模块，增加了约300ms开销。
dev-fast比ci-stable慢48%，根源在于headless: false。GUI模式需初始化X11/Wayland连接、窗口管理器通信、GPU合成器，这些在无头模式下被完全跳过。

实操技巧：若你的CI环境允许，可尝试channel: 'chromium'+args: ['--single-process']。我们在小规模测试中发现，此组合可将启动耗时再降12%，但稳定性略降（偶发crash），故未纳入正式配置。

4.2 维度二：页面加载耗时（Goto Time）——网络与渲染的博弈

page.goto()是E2E测试的命脉，其耗时 = DNS解析 + TCP握手 + TLS协商 + HTTP请求/响应 + HTML解析 + CSS/JS加载 + 渲染树构建 + 首屏绘制。下图展示了L2事务流用例中，从goto()调用到load事件触发的平均耗时：

配置	平均Goto耗时 (ms)	95% CI (ms)	主要影响因素
dev-fast	1,987	±21	`slowMo: 100`强制插入100ms间隔，且GUI模式下渲染合成更耗时
ci-stable	2,103	±18	标准Chromium网络栈，无特殊优化
regression-heavy	2,091	±17	与`ci-stable`几乎一致，证明`workers`设置不影响单个页面加载
container-light	2,345	±25	WebKit的网络栈（CFNetwork）在HTTP/2支持上弱于Chromium，TLS握手稍慢
compat-fallback	2,280	±22	Edge的`--disable-background-networking`参数被意外继承，抑制了预连接

颠覆认知的发现：container-light虽然启动快，但页面加载反而最慢（+11.5%）。这打破了“轻量=快”的直觉。根本原因在于，WebKit牺牲了网络协议栈的先进性来换取体积精简。它不支持QUIC、HTTP/3，且TLS 1.3握手实现不如BoringSSL成熟。因此，对于重度依赖API调用的现代SPA，container-light的启动优势会被网络延迟吃掉大半。

避坑指南：若你的应用90%的goto()是跳转到本地Mock服务（如http://localhost:3000），container-light的网络劣势可忽略，此时它仍是最佳选择。但若大量访问外部CDN或第三方API，则应回退到ci-stable。

4.3 维度三：交互操作耗时（Action Time）——点击、输入、等待的微观世界

这是最贴近“用户感知”的维度。我们测量了page.click()从调用到元素真正被点击（触发mousedown事件）的耗时，以及expect(page).toHaveText()从调用到断言成功的耗时。下表为综合平均值：

配置	平均Action耗时 (ms)	95% CI (ms)	性能瓶颈分析
dev-fast	245	±5	`slowMo: 100`是主因，但GUI模式下事件注入更精准，误点率低
ci-stable	156	±3	Chromium的InputInjector高效，且`--disable-gpu`减少合成延迟
regression-heavy	158	±3	与`ci-stable`无统计学差异，证明高并发不劣化单操作性能
container-light	187	±4	WebKit的事件循环调度稍保守，`click()`后等待`layout`完成更久
compat-fallback	172	±4	Edge的`--disable-features=TranslateUI`等参数减少了后台线程竞争

核心结论：在交互层面，ci-stable和regression-heavy并列最优，且差距微乎其微（<2ms）。这说明，只要避开GUI和慢动作，Chromium的交互性能已趋近物理极限。dev-fast的高耗时是人为引入的，服务于开发体验，而非性能缺陷。

4.4 维度四：内存峰值占用（Memory Peak）——资源敏感型场景的生命线

对于CI或容器化部署，内存是比CPU更稀缺的资源。下图展示了单个Browser实例在整个测试周期内的最高内存占用（MB）：

配置	平均内存峰值 (MB)	95% CI (MB)	内存节省策略
dev-fast	1,420	±35	GUI模式需额外帧缓冲区，但`traces: false`节省了大量磁盘缓存内存
ci-stable	1,120	±28	`--disable-dev-shm-usage`将共享内存转为磁盘，降低RAM压力
regression-heavy	1,135	±29	多Worker共享Browser进程，内存复用率高，但单Worker内存略高
container-light	685	±18	WebKit整体内存模型更紧凑，无V8堆、无Blink DOM树冗余
compat-fallback	1,380	±32	Edge的Telemetry模块持续上报，内存泄漏倾向略高

震撼数据：container-light仅需685MB，不到ci-stable的61%。这意味着，在2GB内存的K8s Pod中，ci-stable最多启动1个Browser实例（1120MB），而container-light可轻松启动2个（1370MB），并发能力翻倍。这是资源受限场景下，配置选择的决定性因素。

经验之谈：我们曾将ci-stable的--disable-dev-shm-usage参数错误地复制到dev-fast配置中，导致本地GUI模式下窗口闪烁、拖拽卡顿。这是因为--disable-dev-shm-usage强制使用/tmp，而GUI渲染需要高速共享内存。参数移植必须结合上下文，切勿盲目复制。

5. 配置选择决策树与真实故障排查案例

数据是冰冷的，但决策是火热的。有了前面的详尽对比，下一步是如何在实际项目中做出正确选择？我们总结了一套三步决策树，并辅以两个真实发生的、曾让我们彻夜难眠的故障案例，展示如何运用这些知识定位根因。

5.1 三步决策树：从问题出发，直达最优配置

不要问“哪个配置最好”，而要问“我的问题是什么”。以下是我们的决策流程：

第一步：诊断瓶颈类型

如果问题表现为“测试启动慢，等半天没反应” → 聚焦Launch Time维度，优先考虑container-light或ci-stable。
如果问题表现为“页面打开后，点击按钮要等好几秒才有响应” → 聚焦Goto Time与Action Time，ci-stable或regression-heavy更稳妥。
如果问题表现为“CI流水线偶尔OOMKilled”或“Docker容器内存爆满” → 聚焦Memory Peak，container-light是唯一解。

第二步：评估环境约束

环境是否有GUI？（本地开发：是；CI：否）→ 排除dev-fast和compat-fallback（除非调试）。
环境内存是否<4GB？（K8s Pod、ARM Mac Mini）→container-light成为事实标准。
是否需要验证特定浏览器行为？（用户投诉Safari白屏）→ 必须用compat-fallback，性能让位于保真度。

第三步：权衡长期成本

dev-fast：短期开发体验极佳，但若团队成员随意将其提交到CI，会引发灾难。我们强制在CI脚本中grep -q "dev-fast" package.json && exit 1。
regression-heavy：短期执行快，但长期维护成本高。workers: 8意味着需要8倍的CPU资源，且webServer的Mock服务必须100%可靠，否则所有测试连锁失败。
container-light：短期适配成本高（需修改部分依赖WebKit的断言），但长期运维最省心，资源消耗最低。

决策树不是终点，而是起点。我们要求每个新项目在立项时，必须填写一份《Playwright配置决策说明书》，明确写出选择理由、预期收益、潜在风险，并由TL签字确认。这避免了“当时觉得没问题，半年后成了技术债”。

5.2 故障案例一：CI流水线“幽灵超时”——`ci-stable`配置下的隐性陷阱

现象：某天凌晨，CI流水线突然出现一批用例超时（30秒），但日志显示page.goto()在25秒时就完成了，之后expect()一直不返回，直到超时。重试后又正常。发生频率约5%。

排查链路：

初始假设：网络抖动？但gotoTime数据稳定，且超时用例集中在L2事务流，与网络无关。
深入日志：启用DEBUG=pw:api，发现超时时，expect()的轮询日志停在waiting for element to be visible，但元素明明在DOM中。
对比分析：提取超时与成功的contextCreateTime，发现超时案例的contextCreateTime平均高180ms。这指向上下文创建环节。
关键线索：ci-stable配置中，我们使用了--disable-dev-shm-usage。查阅Chromium源码，发现此参数会导致SharedMemory回退到MappedFile，而MappedFile在高并发下，mmap()系统调用可能因/tmp空间不足而阻塞。
验证：在CI节点上监控df -h /tmp，果然在高峰期/tmp使用率达98%。mmap()阻塞，导致context创建卡住，进而使后续所有page操作无法获得上下文，expect()无限等待。

修复方案：将--disable-dev-shm-usage替换为--shm-size=2g（Docker参数），并挂载/dev/shm为tmpfs。/tmp压力解除，故障消失。

教训：--disable-dev-shm-usage是双刃剑。它解决了/dev/shm默认64MB太小的问题，却把压力转移到了/tmp。没有银弹，只有权衡。在ci-stable中，我们后来改为--shm-size=1g，既满足需求，又不压垮/tmp。

5.3 故障案例二：本地开发“渐进式卡顿”——`dev-fast`配置的累积效应

现象：开发者A在MacBook Pro上运行dev-fast，起初一切正常。但连续运行测试2小时后，launchTime从1800ms逐渐爬升到3500ms，page.click()也明显变慢，重启VS Code无效，必须重启系统。

排查链路：

进程监控：htop发现WebKitPluginProcess（Safari的插件进程）CPU持续100%，且不随Playwright退出而终止。
关联分析：dev-fast使用headless: false，但Playwright在macOS上，headless: false实际是启动了一个隐藏的Safari实例（通过WKWebView），而非Chrome。WebKitPluginProcess正是其插件宿主。
根因定位：WebKitPluginProcess会缓存所有加载过的JS/CSS资源。2小时连续测试，加载了数百个不同URL的资源，缓存膨胀，GC压力剧增，最终拖垮整个进程。
验证：手动killall WebKitPluginProcess，launchTime瞬间回落至1800ms。

修复方案：在dev-fast配置中，添加launchOptions: { args: ['--clear-cache-on-exit'] }（需Playwright v1.40+支持）。或更简单：在package.json的dev:test脚本中，加入pkill -f WebKitPluginProcess || true作为前置命令。

这个案例深刻说明：本地开发配置的“便利性”，往往以牺牲长期稳定性为代价。dev-fast不是为长时间运行设计的，它的使命是“快速反馈”，而非“持续负载”。我们后来在团队规范中明确：“dev-fast单次连续运行不得超过30分钟，超时自动kill”。

6. 超越基准：配置之外的性能优化实战技巧

基准测试给出了配置的“静态画像”，但真实世界的性能优化，永远发生在配置之外的灰色地带。这些技巧，是我们从上百个线上事故中淬炼出的“野路子”，官方文档不会写，但实测下来，每一条都能带来5%-20%的性能提升。

6.1 技巧一：用`page.route()`拦截，而非`page.waitForResponse()`

很多测试需要等待某个API返回成功，惯用写法是：

// ❌ 低效：轮询等待，耗时且不可靠 await page.waitForResponse('/api/submit', { timeout: 5000 }); // ✅ 高效：路由拦截，零等待 await page.route('/api/submit', async (route) => { const response = await route.fetch(); // 在这里处理响应，无需等待 await route.fulfill({ response }); });

waitForResponse()本质是轮询page.context().responses()，每次轮询都有微小开销。而route()是事件驱动，API一返回立即触发，无任何延迟。在L2事务流中，此技巧平均节省320ms/用例。