当前位置：首页 > news >正文

构建浏览器自动化技能库：从Playwright到模块化实践

news 2026/6/26 18:41:54

1. 项目概述：一个浏览器技能库的诞生

最近在整理个人工作流时，我发现自己积攒了大量与浏览器相关的“小技巧”——从自动化脚本、效率插件配置，到一些特定网站的快捷操作。这些零散的知识点就像散落在工具箱里的螺丝刀和扳手，单个看都有用，但找起来费劲，用起来也不成体系。我相信很多前端开发者、测试工程师，甚至是对效率有追求的普通用户，都有类似的痛点。于是，我萌生了一个想法：为什么不把这些技能系统化地整理成一个开源库呢？这就是browser-act/skills项目的由来。

简单来说，browser-act/skills是一个旨在收集、标准化和分享现代浏览器（主要是基于 Chromium 内核的浏览器，如 Chrome、Edge，以及 Firefox）高级使用技巧与自动化能力的代码库。它不是一个浏览器插件，而更像是一个“武器库”或“工具箱”，里面装满了可以直接调用或稍作修改就能投入使用的代码片段、配置方案和最佳实践。它的核心价值在于，将那些隐藏在论坛角落、个人笔记里的“黑科技”和“骚操作”，变成结构清晰、文档完善、可复现的标准化技能。

这个项目适合谁？首先，当然是前端和测试工程师，你们可以用它来构建更稳定的自动化测试流程，或者模拟复杂的用户交互。其次，是那些需要频繁与网页打交道的运营、数据分析师，通过它你们可以自动化数据抓取、报表生成等重复性工作。最后，任何希望将浏览器从“浏览工具”升级为“生产工具”的进阶用户，都能在这里找到提升效率的钥匙。接下来，我将从设计思路、核心技能解析、具体实现到避坑指南，完整拆解这个项目。

2. 项目整体设计与核心思路

2.1 为什么是“技能库”而非“插件”？

在项目启动前，我首先思考了形态问题。市面上已经有非常多优秀的浏览器插件（如 Tampermonkey, Violentmonkey）来运行用户脚本，为什么还要做一个代码库？核心原因在于“自由度”和“可集成性”。

插件生态虽然丰富，但脚本往往以单个.user.js文件形式存在，功能相对孤立，管理和版本控制比较麻烦。更重要的是，当我们需要在更复杂的自动化流程（例如与 CI/CD 集成、作为 Node.js 后端服务的一部分）中使用这些浏览器能力时，插件模式就显得力不从心了。browser-act/skills选择以纯代码库（主要语言为 JavaScript/TypeScript）的形式存在，意味着每一项“技能”都是一个独立的、可导入的模块或函数。你可以像调用任何第三方库一样调用它们，轻松地将其嵌入到你自己的自动化脚本、测试用例或无头浏览器环境中。

这种设计带来了几个显著优势：

模块化：每个技能都是独立的，按需引入，不会造成代码膨胀。
可测试性：纯函数或类易于编写单元测试，保障技能的可靠性。
环境无关：技能本身不依赖特定插件环境，可以在 Puppeteer、Playwright、Selenium 等多种浏览器自动化框架中运行，只需适配对应的 API 即可。
易于扩展：社区贡献新技能就像提交一个 Pull Request 一样简单，代码审查和合并流程标准化。

2.2 核心架构：分层与分类

为了让海量的技能点不至于变成一锅粥，项目采用了“领域分层”和“功能分类”相结合的结构。

领域分层从上至下分为三层：

基础层：包含浏览器环境检测、通用等待策略、选择器工具函数、错误重试机制等。这是所有技能的基石。
核心技能层：这是项目的重心，包含了解决具体问题的标准化技能，例如“自动登录处理”、“表单智能填充”、“页面性能指标提取”、“特定元素批量操作”等。
场景方案层：基于核心技能组合而成的、针对特定场景的完整解决方案。例如“将指定网页内容自动保存为 PDF 并发送邮件”、“监控电商商品价格变动并告警”等。这一层提供了开箱即用的脚本范例。

功能分类则横向将核心技能层划分为几个大类别，便于查找：

DOM 操作与模拟：聚焦于页面元素的查找、状态判断、触发事件（点击、输入、拖拽）等。
网络请求拦截与模拟：处理请求修改、响应 Mock、资源加载监听等。
存储与状态：操作 Cookie、LocalStorage、SessionStorage，以及管理浏览器标签页状态。
媒体与文件：处理截图、录屏、文件下载与上传自动化。
性能与调试：采集性能时间线、内存快照、控制台日志等。
高级交互：处理 WebSocket 通信、WebRTC 流、通知权限等复杂交互。

这样的架构确保了无论你是想找一个简单的点击函数，还是需要一个复杂的自动化流程，都能快速定位。

2.3 技术选型：为什么是 Playwright 优先？

在底层浏览器自动化驱动上，项目首选推荐并深度集成了 Playwright 。相较于老牌的 Selenium 和后来居上的 Puppeteer，Playwright 在 2020 年后展现出了强大的综合优势。

多浏览器支持：Playwright 为 Chromium、Firefox 和 WebKit（Safari 内核）都提供了高度一致的 API，一套代码可以跨浏览器运行，这对于需要兼容性测试的技能至关重要。
自动等待：它的auto-waiting机制极大地简化了脚本编写。在操作元素前，它会自动等待元素可交互（如可点击、可输入），这避免了技能代码中充斥大量的setTimeout或自定义等待逻辑，让技能更健壮。
强大的网络控制：Playwright 提供了非常精细的网络请求路由（Route）、拦截（Intercept）和模拟（Mock）能力，这对于构建数据 Mock、性能测试等技能是天然的优势。
移动端模拟与设备描述符：内置了丰富的设备描述符（如 iPhone, Pixel），可以轻松模拟移动端浏览器环境，相关技能无需额外复杂配置。

当然，项目设计上保持了驱动层的抽象。所有技能的核心逻辑都尽量与具体的驱动 API 解耦，通过一个轻量的适配层来对接 Playwright。未来，如果需要支持 Puppeteer 或 Selenium，理论上只需实现对应的适配器即可，核心技能代码无需大改。这体现了“技能”本身的纯粹性——它定义的是“做什么”和“怎么做”，而不严格绑定于“用什么工具去做”。

3. 核心技能解析与设计哲学

3.1 技能的设计原则：健壮、可配置、可组合

一个合格的skill，不仅仅是一段能运行的代码。在项目中，我们为每个技能设定了严格的设计原则：

健壮性优先：技能必须能处理边界情况和异常。例如，一个“点击按钮”的技能，不能假设按钮一定存在。它应该包含查找元素的重试逻辑、元素可见性和可点击状态的判断，并在失败时抛出清晰的错误信息，而不是让整个脚本静默失败或崩溃。
高度可配置：通过选项对象（Options）来暴露可调节的参数。比如，一个“滚动到底部”的技能，可以配置滚动步长、超时时间、是否等待新内容加载等。这保证了技能的灵活性。
单一职责：每个技能只做好一件事。复杂的操作应由多个技能组合而成。例如，“完成登录”可能由“输入用户名”、“输入密码”、“点击登录按钮”、“验证登录成功”四个更基础的技能组合而成。这降低了单个技能的复杂度，提高了可测试性和复用性。
返回明确的结果：技能执行后应返回一个结构化的结果对象，至少包含success（布尔值）、data（任何有效数据）和error（错误对象，成功时为null）。这便于上游调用者进行逻辑判断和错误处理。

3.2 示例技能深度拆解：`smartFillForm`

让我们以一个具体的技能——smartFillForm（智能表单填充）为例，看看这些原则是如何落地的。这个技能的目标是：给定一个表单的选择器和一个数据对象，自动识别表单内的输入框、下拉框、单选框等，并填入对应的值。

3.2.1 核心实现思路

它绝不是简单的page.fill(selector, value)。其内部流程如下：

表单域发现与映射：首先，通过page.$$()获取表单内所有可能的输入元素（input,textarea,select,input[type=radio],input[type=checkbox]）。
元素智能识别：对每个元素，通过多种属性尝试确定其“身份”，优先级通常是：name>id>aria-label>placeholder。这个“身份”将是与传入数据对象的键（key）进行匹配的依据。
类型适配与填充：
- 对于普通文本输入框（text,email,number等），直接填充值。
- 对于下拉框（select），根据value或选项的textContent来匹配并选择。
- 对于单选框（radio）和复选框（checkbox），根据其value属性是否与数据值匹配来决定是否点击。
验证与反馈：填充后，可配置是否进行简单验证（如检查输入框的值是否已变为目标值），并将每个字段的填充结果（成功/失败及原因）汇总返回。

3.2.2 可配置选项

const options = { formSelector: 'form#login', // 表单选择器 data: { username: 'test', rememberMe: true }, // 填充数据 fieldMapping: { 'user': 'username' }, // 自定义字段名映射 waitAfterFill: 100, // 每次填充后的等待毫秒数 validate: true, // 是否验证填充结果 retryOnFail: 2, // 失败重试次数 };

3.2.3 注意事项与心得

注意：智能识别并非 100% 可靠。对于复杂的、动态生成或使用了非标准属性的表单，建议通过fieldMapping选项进行显式映射，将表单元素的name或id与你数据对象的键关联起来。这是保障技能稳定性的关键。

心得：在处理复选框时，我发现不能简单地根据value判断。因为一个复选框组可能有多个，其checked状态是独立的。更稳健的做法是，如果数据值为true，就确保点击该复选框；如果为false，则确保取消选中（如果之前是选中状态）。这需要技能内部维护更精细的状态判断。

3.3 另一个关键技能：`monitorNetworkActivity`

这个技能用于监控页面在特定操作下的网络请求，常用于性能分析、API 调用追踪或数据抓取。

3.3.1 设计要点它利用 Playwright 的page.on('request')和page.on('response')事件监听器。但直接使用这些事件会面临两个问题：1) 事件监听是全局的，会捕获所有请求；2) 数据是流式的，需要自己聚合。

因此，monitorNetworkActivity技能的设计核心是“作用域”和“聚合”。

启动监控：调用startMonitoring()，开始记录所有请求/响应。
执行操作：用户执行需要监控的操作（如点击搜索按钮）。
停止并获取数据：调用stopAndGetData()，停止监听，并返回一个经过过滤和聚合的请求列表。过滤条件可以在启动时配置，例如只关注特定 URL 模式（如/api/*）或请求类型（如XHR/Fetch）。

3.3.2 返回的数据结构返回的数据不仅包含 URL、方法、状态码，还精心整理了请求头、响应头、请求体（如果可读）、响应体（如果可读，并尝试解析为 JSON），以及请求的发起时间戳和响应接收时间戳，从而可以计算出粗略的接口耗时。

3.3.3 避坑指南

重要提示：监听网络请求会消耗内存，特别是在长时间运行或页面频繁发起请求的场景下。务必在操作完成后及时调用stopAndGetData()来清理事件监听器，避免内存泄漏。此外，对于大型响应体（如文件下载），直接读取可能会影响性能，技能内部应提供选项来忽略或限制这类响应的内容捕获。

4. 实战：组合技能构建自动化场景

理论说得再多，不如看一个实际例子。假设我们需要实现一个场景：“自动登录某个管理后台，导出最近一周的用户数据报表为 CSV 文件”。

4.1 场景分解与技能映射

我们可以将这个场景分解为一系列顺序执行的任务，每个任务对应一个或多个技能：

导航与初始化：打开登录页面，初始化浏览器上下文。
- 技能：基础导航。
登录系统：输入凭证并提交。
- 技能：smartFillForm(填充登录表单) +clickWithRetry(点击登录按钮)。
导航至报表页面：登录后，点击侧边栏菜单。
- 技能：waitForNavigation(等待页面跳转完成) +clickByText(根据文本点击)。
设置查询条件：在报表页面选择时间范围（最近一周）。
- 技能：smartFillForm或专用的setDateRangePicker(处理日期选择器组件)。
触发导出并监控下载：点击“导出 CSV”按钮，并捕获下载的文件。
- 技能：clickWithRetry+monitorDownload(一个专门用于监听和保存下载文件的技能)。
验证与清理：确认文件已下载，关闭浏览器。
- 技能：文件系统操作（Node.jsfs模块）和浏览器清理。

4.2 代码实现骨架

import { launchBrowser, newContext } from '@browser-act/core'; import { smartFillForm, clickByText, setDateRangePicker, monitorDownload } from '@browser-act/skills'; async function exportUserReport() { const browser = await launchBrowser({ headless: false }); // 非无头模式，便于调试 const context = await newContext(browser); const page = await context.newPage(); try { // 1. 导航到登录页 await page.goto('https://admin.example.com/login'); // 2. 智能填充登录表单 const loginResult = await smartFillForm(page, { formSelector: '#loginForm', data: { username: process.env.ADMIN_USER, password: process.env.ADMIN_PASS }, validate: true, }); if (!loginResult.success) throw new Error(`登录失败: ${loginResult.error}`); // 3. 点击登录按钮（假设表单提交方式是按钮点击） await clickByText(page, { text: '登录', selector: 'button[type="submit"]' }); await page.waitForURL('**/dashboard'); // 等待跳转到仪表盘 // 4. 导航到报表页面 await clickByText(page, { text: '用户报表', selector: '.sidebar-nav a' }); await page.waitForSelector('.report-filter'); // 等待报表过滤器加载 // 5. 设置查询时间为最近一周 const oneWeekAgo = new Date(); oneWeekAgo.setDate(oneWeekAgo.getDate() - 7); const dateResult = await setDateRangePicker(page, { startDate: oneWeekAgo, endDate: new Date(), startSelector: '#startDate', endSelector: '#endDate', }); // 6. 启动下载监控，然后点击导出 const downloadPromise = monitorDownload(page, { savePath: './downloads', filenamePattern: 'user_report_*.csv', // 可以包含通配符或时间戳 }); await clickByText(page, { text: '导出 CSV', selector: '.export-btn' }); // 等待下载完成并获取文件信息 const downloadedFile = await downloadPromise; console.log(`报表已导出至: ${downloadedFile.path}`); // 7. 这里可以添加文件验证逻辑，例如检查文件大小、解析前几行数据等 // ... } catch (error) { console.error('自动化流程执行失败:', error); // 可以在这里截图，便于排查问题 await page.screenshot({ path: `error-${Date.now()}.png`, fullPage: true }); } finally { // 8. 清理资源 await browser.close(); } } exportUserReport();

4.3 组合技能的威力

通过将原子技能组合起来，我们只用了几十行清晰易懂的代码，就完成了一个包含多个步骤、有状态转换（页面跳转）、有异步等待（下载）的复杂自动化流程。每个技能都处理了自己的边界情况，使得主流程代码非常干净。如果需要修改某个步骤（比如登录方式从表单变成 OAuth），只需替换对应的技能模块，而无需重写整个脚本。

5. 开发、贡献与集成指南

5.1 本地开发与测试环境搭建

项目采用 TypeScript 编写，以获得更好的类型提示和代码质量。本地开发流程如下：

克隆与安装：

git clone https://github.com/browser-act/skills.git cd skills npm install

技能开发：在src/skills/目录下创建新的技能文件，例如src/skills/handleModal.ts。每个技能应导出一个或多个异步函数，并遵循统一的参数签名（通常第一个参数是Page或Frame对象，第二个参数是配置选项）。
编写单元测试：在tests/目录下为技能编写测试。我们使用 Jest 和playwright-test进行测试。测试的关键是模拟真实的浏览器交互。我们会启动一个真实的浏览器实例（或使用无头模式），导航到一个专门为测试搭建的静态页面（位于tests/fixtures/），然后在该页面上调用技能并断言其行为。
```
# 运行所有测试 npm test # 运行特定技能的测试 npm test -- handleModal
```
构建与发布：使用npm run build将 TypeScript 编译为 JavaScript 到dist/目录。项目遵循语义化版本控制，通过 GitHub Actions 自动化测试和发布到 npm 仓库。

5.2 如何向项目贡献一个新技能

社区贡献是项目活力的源泉。贡献流程被设计得尽可能顺畅：

寻找灵感或认领任务：查看 GitHub Issues 中的good first issue或skill request标签，或者提出你自己觉得有价值的技能想法。
遵循代码规范：项目使用 ESLint 和 Prettier 保证代码风格统一。提交前请运行npm run lint进行检查。
完备的测试是必须的：任何新技能都必须附带至少覆盖主要功能和边界条件的测试用例。测试覆盖率是合并的重要参考。
撰写清晰的文档：在技能源代码的顶部使用 JSDoc 格式编写详细的注释，说明功能、参数、返回值和使用示例。同时，需要更新项目的README.md或对应的技能目录文档。
提交 Pull Request：PR 描述中应清晰说明该技能解决的问题、实现思路、测试情况和使用示例。核心维护者会进行代码审查。

5.3 在你的项目中集成

集成方式非常简单，就像使用任何其他 npm 包一样：

安装：

npm install @browser-act/skills # 同时需要安装你选择的浏览器自动化驱动，如 Playwright npm install playwright

导入使用：

// 使用 ES Modules import { smartFillForm, takeScreenshot } from '@browser-act/skills'; import { chromium } from 'playwright'; (async () => { const browser = await chromium.launch(); const page = await browser.newPage(); await page.goto('your-url'); // 使用技能 await smartFillForm(page, { formSelector: '#myForm', data: { field1: 'value1' } }); await takeScreenshot(page, { path: 'fullpage.png', fullPage: true }); await browser.close(); })();

对于 CommonJS 环境：

const { smartFillForm } = require('@browser-act/skills');

树摇优化：项目构建支持 ES Modules，并与现代打包工具（如 Webpack, Rollup）良好兼容。这意味着当你只导入smartFillForm时，打包工具会自动剔除未使用的其他技能代码，最终打包体积非常小。

6. 常见问题、排查技巧与性能优化

在实际使用和开发技能的过程中，你会遇到各种各样的问题。这里记录了一些最具代表性的坑和解决方案。

6.1 元素找不到或操作超时

这是最常见的问题，没有之一。

可能原因与排查：
1. 页面未加载完成：在操作前，确保页面或关键元素已经加载。使用page.waitForSelector(selector, { state: 'visible' })或技能内部自带的等待机制。
2. 选择器问题：
  - 动态生成：如果元素是 JavaScript 动态生成的，其选择器可能不稳定。尝试使用更稳定的属性，如>const frameElement = await page.$('iframe#myIframe'); const frame = await frameElement.contentFrame(); const button = await frame.$('button.submit'); await button.click();
  - 页面结构变化：网站前端更新可能导致选择器失效。为技能编写测试用例，并在 CI 中定期运行，可以及早发现这类问题。
实操心得：
不要过度依赖复杂的 CSS 选择器。优先使用id，其次是name或明确的>async function waitForCondition(page, conditionFn, timeout = 30000) { const startTime = Date.now(); while (Date.now() - startTime < timeout) { if (await conditionFn(page)) return true; await page.waitForTimeout(100); // 短暂等待后重试 } throw new Error(`Condition not met within ${timeout}ms`); } // 使用：等待成功提示出现 await waitForCondition(page, (p) => p.$eval('.alert-success', el => el.innerText.includes('成功')));

6.3 性能优化与资源管理

当技能运行在 CI 环境或需要处理大量页面时，性能至关重要。

浏览器实例复用：避免为每个任务都启动和关闭浏览器。使用browser.newContext()创建独立的上下文（Context），每个上下文拥有独立的 Cookie、缓存等，但共享浏览器进程。任务完成后，关闭上下文即可，浏览器进程可以保持以供后续任务使用。
无头模式与沙盒：在服务器环境（如 CI）中，始终使用无头模式（headless: true）。考虑禁用沙盒（args: ['--no-sandbox']）以解决某些 Linux 环境下的权限问题，但要注意安全风险（仅在受信任的隔离环境中使用）。
限制并发：如果同时运行多个浏览器实例或页面，需要限制并发数，避免耗尽系统内存。可以使用p-queue这样的库来管理任务队列。
清理资源：确保在finally块中或使用try...catch...finally结构来关闭页面、上下文和浏览器。监听process的退出事件也是一个好习惯，防止脚本异常退出导致浏览器进程成为“僵尸进程”。
技能内部的优化：在技能内部，避免不必要的截图、录屏或网络请求监听。如果技能需要监听网络，一定要提供明确的开始和停止方法，并及时清理监听器。

6.4 调试技巧

非无头模式与慢动作：在开发调试阶段，使用headless: false来亲眼看到浏览器的操作。配合slowMo: 500（单位毫秒）选项，让每个操作都慢下来，方便观察。
截图与录屏：在关键步骤或出错时自动截图，是定位问题的利器。takeScreenshot技能可以轻松完成这个任务。对于复杂交互，可以使用recordVideo技能（如果浏览器上下文配置了recordVideo选项）录制整个过程。
控制台日志：在技能中，可以使用page.on('console', msg => console.log('浏览器日志:', msg.text()))来捕获页面中的console.log输出，这对于理解页面内部状态非常有帮助。
Playwright 调试器：Playwright 提供了强大的调试工具playwright inspector。通过设置环境变量PWDEBUG=1或在代码中await page.pause()，可以启动一个交互式调试界面，单步执行、查看选择器、检查页面状态。

7. 安全与最佳实践考量

在赋予浏览器强大自动化能力的同时，我们必须对安全、伦理和最佳实践保持清醒的认识。

遵守robots.txt与网站条款：自动化脚本不应用于恶意爬取、攻击或干扰网站正常服务。在使用技能访问任何网站前，应检查其robots.txt文件和服务条款，尊重网站的访问限制。本项目提供的技能是工具，工具的使用者负有责任。
速率限制与友好访问：在编写自动化脚本时，应在请求之间添加合理的延迟（例如使用page.waitForTimeout(1000)），模拟人类操作速度，避免对目标服务器造成过大压力，甚至被识别为攻击而封禁 IP。
敏感信息处理：绝不在代码中硬编码密码、API 密钥等敏感信息。应使用环境变量（如process.env）或安全的密钥管理服务。项目文档中应反复强调这一点。
技能的可测试性与幂等性：设计技能时，应尽量让其行为可预测和幂等。例如，一个“勾选复选框”的技能，无论复选框当前状态如何，调用后都应使其处于目标状态，而不是简单地“点击一下”。这保证了技能在复杂流程中的可靠性。
错误处理与日志：技能必须提供清晰的错误信息，便于调用者定位问题。在技能内部进行细致的错误捕获和分类（如网络错误、超时错误、元素状态错误），并向上抛出结构化的错误对象。统一的日志记录也有助于后期运维。

browser-act/skills项目的目标，是降低浏览器自动化的门槛，让开发者能更专注于业务逻辑，而不是与不稳定的选择器、异步等待和浏览器特性作斗争。它通过提供一套经过实战检验的、模块化的、文档清晰的“技能”，将最佳实践固化下来。无论是构建端到端测试、数据采集工具还是日常办公自动化，这个项目都希望能成为你工具箱中一件趁手的利器。项目的成功最终取决于社区的贡献和使用，期待你能分享你的技巧，共同完善这个浏览器技能的“百科全书”。

查看全文

http://www.jsqmd.com/news/777481/