当前位置：首页 > news >正文

Selenium自动化测试入门：从核心原理到实战应用

news 2026/7/6 0:45:16

1. 项目概述：为什么是Selenium？

如果你是一名测试工程师、开发人员，或者任何需要与网页打交道的技术从业者，听到“自动化测试”这个词，脑子里蹦出来的第一个工具，十有八九是Selenium。这几乎成了一个条件反射。我从业十几年，从早期的QTP、Watir一路用过来，亲眼看着Selenium从一个边缘的浏览器操控工具，成长为如今Web自动化测试领域事实上的标准。今天这篇，我们不聊高深的框架设计，也不急着写复杂的脚本，就从最根本的“为什么是Selenium”开始，把它掰开揉碎了讲清楚。这就像学武功，你得先知道手里这把剑叫什么、有多重、怎么握，而不是一上来就学招式。

Selenium本质上是一个用于Web应用程序自动化测试的工具集。但它的能力远不止于“测试”。你可以用它来模拟用户的所有操作：点击、输入、滚动、下拉选择，甚至处理弹窗和文件上传。它的核心价值在于，能够让你用代码来驱动浏览器，像真人一样与网页交互，从而将重复、繁琐的UI操作自动化。无论是每天要跑上百遍的回归测试用例，还是需要从成百上千个网页中抓取特定数据的爬虫任务，Selenium都能帮你从机械劳动中解放出来。

那么，为什么在众多工具中，Selenium能脱颖而出？我总结下来，核心就三点：开源免费、跨平台/跨浏览器、生态强大。开源意味着你可以免费使用，并且有庞大的社区支持，遇到问题很容易找到解决方案。它支持所有主流浏览器（Chrome, Firefox, Edge, Safari）和操作系统（Windows, macOS, Linux），你写的脚本理论上可以无缝迁移。而强大的生态，则体现在它几乎被所有主流编程语言（Java, Python, C#, JavaScript, Ruby等）支持，并且能与各种测试框架（如pytest, TestNG, JUnit）、持续集成工具（如Jenkins, GitLab CI）无缝集成。这构成了一个完整的自动化工作流闭环。

2. Selenium家族成员解析：不只是WebDriver

很多人一提到Selenium，就只想到WebDriver。这没错，WebDriver是现在的绝对核心和灵魂。但了解它的整个家族谱系，能帮助你更好地理解它的演进历史和在不同场景下的适用性。我把它们分为“现代核心”和“历史遗产”两部分来看。

2.1 现代核心三剑客

Selenium WebDriver：这是你必须深入学习的核心。它基于W3C标准，通过浏览器原生支持或浏览器驱动，直接与浏览器内核通信。你可以把它理解为一个“遥控器”，你的代码（比如Python脚本）通过这个遥控器发送指令（“点击那个按钮”、“在这个输入框里输入文字”），遥控器再将指令翻译成浏览器能听懂的语言去执行。它的控制粒度最细，能力最强，是进行复杂、稳定自动化任务的唯一选择。

Selenium Grid：这是为了分布式执行和跨浏览器兼容性测试而生的神器。想象一下，你写好了一个测试脚本，需要在Windows的Chrome、macOS的Safari和Linux的Firefox上同时运行，以验证网页的兼容性。如果没有Grid，你需要准备三台机器，分别配置环境，然后一个个手动执行。有了Grid，你可以搭建一个Hub（中心节点），然后注册多个Node（节点，即安装了不同浏览器和系统的机器）。你的脚本只需要将指令发送给Hub，Hub会自动分配任务到符合条件的Node上执行。这对于搭建自动化测试平台、实现快速反馈至关重要。

Selenium Manager (Beta)：这是Selenium 4引入的一个“默默奉献”的英雄，用Rust编写。在以前，用WebDriver最头疼的第一步就是：下载浏览器驱动（如chromedriver, geckodriver）。你需要手动下载，确保驱动版本和浏览器版本匹配，还要把驱动放到系统PATH里。版本不匹配是新手最常见的报错来源。Selenium Manager的出现，就是为了自动化解决这个问题。现在，当你初始化一个WebDriver实例时（例如webdriver.Chrome()），Selenium Manager会在后台自动检测你本地安装的浏览器版本，并下载匹配的驱动，无需任何手动干预。这极大地降低了入门和配置成本。

2.2 历史遗产与辅助工具

Selenium IDE：这是一个浏览器插件，提供“录制与回放”功能。你像正常用户一样操作网页，IDE会记录下你的每一步，并生成可回放的测试脚本。它的优点是上手极快，零代码基础也能快速创建一些简单的自动化流程。但缺点也很明显：生成的脚本通常比较脆弱（依赖于具体的元素定位方式，如冗长的XPath），难以维护，也不适合复杂的逻辑判断和数据驱动测试。在我看来，IDE更适合用于快速探索、生成基础脚本片段，或者给非技术人员演示自动化概念。对于严肃的自动化项目，不建议依赖录制回放。

Selenium RC (Remote Control)和Selenium 1：这些都是已被淘汰的旧架构。RC通过一个中间代理服务器注入JavaScript来操控浏览器，方式笨重且受同源策略限制很多。WebDriver的出现直接淘汰了它。了解它们的存在只是为了阅读一些历史资料时不困惑，新项目绝对不要考虑。

3. 核心工作原理：WebDriver如何与浏览器对话？

理解了家族成员，我们深入到最核心的WebDriver，看看它到底是怎么工作的。这对于后续调试问题、理解各种异常至关重要。很多人写了很久脚本，只知道find_element和click，却不知道背后发生了什么，一旦遇到NoSuchElementException或者StaleElementReferenceException就一头雾水。

WebDriver遵循的是客户端-服务器架构模型：

客户端 (Client)：就是你写的自动化脚本，使用Selenium提供的语言绑定库（如Python的selenium包）。
服务器 (Server)：就是浏览器驱动（如chromedriver.exe）。每个浏览器都有一个对应的驱动，它由浏览器厂商或社区维护。
通信协议：它们之间通过一个标准的WebDriver Wire Protocol（现在是W3C标准）进行HTTP/JSON通信。

当你执行driver = webdriver.Chrome()时，发生了以下事情：

你的脚本（客户端）启动ChromeDriver进程（服务器）。
ChromeDriver启动一个新的Chrome浏览器实例（或连接到已存在的实例）。
从此，你的每一个脚本命令，例如driver.get(“http://example.com”)或element.click()，都会被客户端库翻译成一个HTTP请求（通常是POST请求），发送给ChromeDriver。
ChromeDriver接收到这个请求，将其翻译成浏览器能理解的底层指令（通过Chrome的DevTools Protocol或其他原生接口），发送给浏览器执行。
浏览器执行完操作后，将结果（成功或失败，以及可能的返回值）通过ChromeDriver返回给客户端库。
客户端库再将结果反馈给你的脚本。

这个过程听起来有点绕，但好处是标准化和解耦。因为通信协议是标准的，所以理论上，任何实现了该协议的驱动，都能用同样的客户端代码来操作。这也正是“跨浏览器”的基石。

注意：这里有一个非常重要的实践细节。浏览器驱动和浏览器实例是两个不同的进程。你必须确保驱动版本与浏览器主版本大致匹配（如Chrome 120对应chromedriver 120.x）。虽然Selenium Manager能帮你自动处理，但在某些受限环境（如公司内网无法自动下载）或使用特定版本时，你仍需手动管理。版本不匹配最常见的错误就是浏览器打不开，或者打开后立刻闪退。

4. 快速上手：你的第一个Selenium脚本

理论说再多，不如动手跑一遍。我们以Python为例，写一个最简单的脚本，目标是打开Selenium官网，获取标题并打印出来。我会详细解释每一行代码，以及背后可能遇到的坑。

4.1 环境准备与安装

首先，确保你安装了Python（建议3.7以上版本）。然后，通过pip安装Selenium库。这是最简单的一步。

pip install selenium

安装完成后，Selenium Manager在背后就已经就绪了。对于Chrome或Edge（基于Chromium），你通常不需要再做任何事。但对于Firefox（geckodriver），在某些情况下可能仍需手动配置，但Selenium 4+也在努力实现全自动管理。

4.2 编写并运行脚本

创建一个新的Python文件，比如first_script.py，输入以下内容：

from selenium import webdriver from selenium.webdriver.common.by import By import time # 1. 创建WebDriver实例，启动浏览器 driver = webdriver.Chrome() # 如果使用Firefox，则是 webdriver.Firefox() # 2. 导航到目标网址 driver.get("https://www.selenium.dev") # 3. 等待页面加载（简单粗暴的方式，生产环境应用显式等待） time.sleep(2) # 等待2秒，确保页面元素加载完成 # 4. 获取页面标题并打印 page_title = driver.title print(f"当前页面标题是: {page_title}") # 5. 找到下载链接并点击（示例） try: # 使用Link Text定位“Downloads”链接 download_link = driver.find_element(By.LINK_TEXT, "Downloads") download_link.click() print("已点击Downloads链接") time.sleep(2) # 等待新页面加载 print(f"点击后页面标题是: {driver.title}") except Exception as e: print(f"未找到下载链接: {e}") # 6. 关闭浏览器 driver.quit()

逐行解析与避坑指南：

from selenium.webdriver.common.by import By：这是Selenium 4的强制要求。在旧版本（Selenium 3）中，你可以用find_element_by_id这类方法。但在Selenium 4中，官方推荐并最终要求使用find_element(By.ID, “id”)这种统一方式，代码更清晰，且易于与Page Object模式配合。忘记导入By是新手常见错误。
driver = webdriver.Chrome()：这行代码会尝试启动ChromeDriver并打开Chrome浏览器。如果一切正常，你会看到弹出一个新的Chrome窗口。如果报错，最常见的原因是：
- Chrome浏览器未安装：请先安装Chrome。
- 驱动问题：尽管有Selenium Manager，但在网络受限环境或非常新的浏览器版本刚发布时，可能自动下载失败。此时需要手动下载chromedriver，并将其所在目录添加到系统PATH，或者在代码中指定路径：driver = webdriver.Chrome(executable_path=‘/path/to/chromedriver’)。
driver.get(“https://...” )：导航到指定URL。这里有一个关键点：get方法会阻塞直到页面完全加载（即浏览器document.readyState为complete）。但对于大量使用Ajax或JavaScript动态加载内容的现代网页，complete状态并不意味着你需要的那个按钮或数据已经加载出来了。所以，不要依赖get方法的完成来判断元素是否可见。
time.sleep(2)：这是隐式等待的一种简陋形式，但它是不好的实践。我们在这里使用只是为了演示简单。sleep固定等待2秒，如果网络慢，可能不够；如果网络快或元素加载快，则白白浪费了时间。在生产脚本中，必须使用显式等待（WebDriverWait），后面会详细讲。
driver.find_element(By.LINK_TEXT, “Downloads”)：这是元素定位。By.LINK_TEXT是定位策略之一，表示通过链接的完整文本内容来查找。如果页面上有多个“Downloads”链接，find_element会返回第一个。如果找不到，会抛出NoSuchElementException。元素定位是Selenium脚本稳定性的基石，也是难点所在。
driver.quit()：务必使用quit()而不是close()。close()只关闭当前浏览器标签页，如果只有一个标签页则关闭浏览器，但可能不会彻底终止WebDriver进程。quit()则会关闭所有关联的窗口，并安全地终止WebDriver进程，释放资源。养成用quit()的好习惯。

运行这个脚本，你应该能看到一个Chrome窗口自动打开，访问Selenium官网，然后在控制台打印出标题，接着点击下载链接，最后浏览器关闭。恭喜你，你的第一个自动化脚本成功了！

5. 深入核心：元素定位与等待机制

脚本能跑起来只是第一步。要让脚本稳定、可靠，必须掌握两大核心：精准的元素定位和稳健的等待机制。90%的脚本失败都源于这两点没处理好。

5.1 元素定位的八种武器与选用策略

Selenium提供了8种主要的定位方式（通过By类）：

By.ID：通过元素的id属性。这是首选，因为id通常在页面中唯一。
By.NAME：通过元素的name属性。
By.CLASS_NAME：通过元素的class属性。
By.TAG_NAME：通过HTML标签名，如div,a,input。
By.LINK_TEXT：通过超链接的完整文本。
By.PARTIAL_LINK_TEXT：通过超链接的部分文本。
By.CSS_SELECTOR：通过CSS选择器。功能强大，是复杂定位的首选。
By.XPATH：通过XML路径语言。功能最强大，但表达式可能复杂且脆弱。

定位策略与避坑经验：

优先级：ID>NAME>CSS_SELECTOR>XPATH> 其他。ID和NAME是开发者赋予的语义化标识，通常最稳定。如果都没有，CSS选择器性能通常优于XPATH，且语法更简洁。
避免绝对路径和索引：不要使用像//div[3]/div[2]/span[1]这样的绝对XPATH，或者find_elements(By.TAG_NAME, ‘div’)[5]这样的索引定位。页面结构稍有变动（比如中间插入一个div），你的定位就失效了。要寻找元素的稳定特征，比如其id、独特的class组合、邻近元素的稳定关系。
使用开发者工具：Chrome DevTools (F12) 是你的最佳伙伴。使用“检查”元素，在Elements面板中右键元素，可以选择“Copy” -> “Copy selector” (CSS) 或 “Copy XPath”。但这只是起点，复制的选择器往往很长且脆弱，需要你根据上一条原则进行简化和优化。
处理动态ID/Class：很多前端框架（如React, Vue）会生成动态的id或class，每次刷新都变化。此时绝不能依赖它们。应该寻找其父级或相邻级元素的稳定特征，然后使用相对定位。例如，一个按钮的id是动态的，但它在一个class为stable-container的div里，并且按钮文本是“提交”，那么可以用：By.XPATH, “//div[@class=‘stable-container’]//button[text()=‘提交’]”。

5.2 等待机制：告别`time.sleep`，拥抱显式等待

time.sleep()是脚本的“毒药”，它让脚本变得缓慢且不可靠。正确的等待方式是使用WebDriver提供的等待机制。

1. 隐式等待 (Implicit Wait)：

driver.implicitly_wait(10) # 设置一次，全局生效 element = driver.find_element(By.ID, “someId”)

隐式等待告诉WebDriver在查找任何元素时，如果元素没有立即出现，就轮询查找（默认每0.5秒）一段时间（这里10秒），直到找到或超时。它只对find_element和find_elements生效。缺点是它无法处理更复杂的条件，比如元素可点击、元素可见。

2. 显式等待 (Explicit Wait)：生产环境推荐使用

from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC wait = WebDriverWait(driver, 10) # 超时时间10秒 element = wait.until(EC.presence_of_element_located((By.ID, “someId”))) # 或者等待元素可点击 button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, “.submit-btn”))) button.click()

显式等待是针对某个特定条件进行的等待。WebDriverWait配合expected_conditions（EC）模块，可以等待元素出现、可见、可点击、包含特定文本等。它更精确，不会浪费不必要的等待时间。until方法会返回符合条件的元素对象，可以直接操作。

3. 流畅等待 (Fluent Wait)：更灵活的显式等待，可以自定义轮询间隔和忽略的异常类型，但在Python中，WebDriverWait已经足够强大。

最佳实践：

混合使用：通常设置一个较短的全局隐式等待（如5秒），作为兜底。然后在关键操作（如点击、输入前）使用更精确的显式等待。
明确等待条件：根据场景选择EC条件。presence_of_element_located（元素存在于DOM）和visibility_of_element_located（元素可见）是不同的。如果一个元素被隐藏（display: none），前者能找到，后者会超时。

自定义等待条件：如果内置条件不满足，你可以用lambda自定义：

element = wait.until(lambda d: d.find_element(By.ID, “id”).get_attribute(“value”) == “expected_text”)

6. 常见问题排查与实战技巧

即使理解了原理，实战中还是会踩坑。下面是我总结的一些高频问题和解决技巧。

6.1 元素定位失败 (`NoSuchElementException`)

这是最常见的问题。排查步骤：

确认页面已加载：是不是没等页面加载完就去找元素？添加显式等待。
确认定位器正确：在浏览器DevTools的Console里，用JavaScript验证你的CSS或XPath是否正确。例如，对于CSS选择器#loginBtn，在Console输入document.querySelector(‘#loginBtn’)，看是否能找到元素。

检查是否在iframe/frame内：如果目标元素位于<iframe>或<frame>标签内，你必须先切换到对应的frame，才能定位其中的元素。

driver.switch_to.frame(“frame_name_or_id”) # 通过name/id切换 # 或者通过元素切换 frame_element = driver.find_element(By.CSS_SELECTOR, “iframe.xxx”) driver.switch_to.frame(frame_element) # 操作frame内的元素... # 操作完成后切回主文档 driver.switch_to.default_content()

检查是否在新窗口/标签页：点击某个链接后打开了新窗口，你需要切换窗口句柄。

original_window = driver.current_window_handle # 获取当前窗口句柄 # 点击打开新窗口的操作... # 获取所有窗口句柄 all_windows = driver.window_handles new_window = [w for w in all_windows if w != original_window][0] driver.switch_to.window(new_window) # 切换到新窗口 # 操作新窗口... driver.close() # 关闭新窗口 driver.switch_to.window(original_window) # 切回原窗口

6.2 元素交互失败 (`ElementNotInteractableException`)

找到了元素，但点击或输入时失败。

元素不可见或被覆盖：等待元素可见 (EC.visibility_of_element_located) 且可点击 (EC.element_to_be_clickable)。有时元素被其他元素（如弹窗、遮罩层）覆盖，需要先处理掉覆盖物。
元素是disabled状态：检查元素是否有disabled属性。对于<input disabled>，WebDriver是无法交互的。
使用JavaScript直接操作：作为最后手段，可以用execute_script执行JavaScript来点击或设置值。
```
element = driver.find_element(By.ID, “hiddenBtn”) driver.execute_script(“arguments[0].click();”, element) # 设置输入框值 driver.execute_script(“arguments[0].value = ‘new value’;”, input_element)
```
注意：JavaScript操作绕过了浏览器的常规交互模拟，可能无法触发元素关联的JavaScript事件（如onchange），需谨慎使用，并确认是否触发了必要的业务逻辑。

6.3 脚本执行速度慢或不稳定

优化等待：用显式等待替代固定sleep。
减少不必要的查找：找到的元素对象可以存储到变量中重复使用，避免多次查找。

使用pageLoadStrategy：如果不需要等待所有资源（如图片、样式表）加载，可以设置页面加载策略为eager或none，加快get方法的速度。

from selenium.webdriver.chrome.options import Options options = Options() options.page_load_strategy = ‘eager’ # 等待DOM解析完成即可，不等待所有资源 driver = webdriver.Chrome(options=options)

无头模式 (Headless)：在不需要观察浏览器界面的场景（如CI/CD流水线），使用无头模式可以节省大量资源，运行更快。

options.add_argument(“--headless=new”) # Chrome较新版本推荐使用new options.add_argument(“--disable-gpu”) # 在Windows上可能需要 options.add_argument(“--no-sandbox”) # Linux环境有时需要 options.add_argument(“--disable-dev-shm-usage”) # 解决共享内存问题

6.4 处理弹窗、Alert和Cookie

JavaScript Alert/Confirm/Prompt：

from selenium.webdriver.common.alert import Alert alert = Alert(driver) print(alert.text) # 获取弹窗文本 alert.accept() # 点击“确定” # alert.dismiss() # 点击“取消” # alert.send_keys(“input text”) # 在Prompt中输入文本

浏览器原生弹窗（文件上传/下载）：文件上传可以通过send_keys直接给<input type=“file”>元素发送文件路径来实现，千万不要尝试用Selenium去操作操作系统级别的文件选择窗口。文件下载则需要配置浏览器选项，指定下载路径。

Cookie管理：

# 获取所有cookie all_cookies = driver.get_cookies() # 添加cookie (通常在访问页面后) driver.add_cookie({‘name’: ‘session’, ‘value’: ‘abc123’}) # 删除cookie driver.delete_cookie(‘session’) # 删除所有cookie driver.delete_all_cookies()

7. 从脚本到项目：架构与最佳实践初探

当你掌握了基础操作后，很快就会面临如何组织代码的问题。一个.py文件里塞几百行代码是难以维护的。这里介绍两个最核心的实践模式，为你后续搭建自动化测试框架打下基础。

7.1 Page Object Model (POM) 设计模式

这是UI自动化测试的黄金标准。其核心思想是将页面对象和测试逻辑分离。

页面对象类：封装一个页面的所有元素定位和基本操作（如输入、点击）。测试脚本不直接与find_element打交道。
测试脚本：只包含业务逻辑和断言，调用页面对象提供的方法。

一个简单的登录页面例子：

# pages/login_page.py from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC class LoginPage: def __init__(self, driver): self.driver = driver self.wait = WebDriverWait(driver, 10) # 元素定位器 self.username_input = (By.ID, “username”) self.password_input = (By.ID, “password”) self.submit_button = (By.CSS_SELECTOR, “button[type=‘submit’]”) self.error_message = (By.CLASS_NAME, “alert-error”) def enter_username(self, username): element = self.wait.until(EC.visibility_of_element_located(self.username_input)) element.clear() element.send_keys(username) return self # 支持链式调用 def enter_password(self, password): self.wait.until(EC.visibility_of_element_located(self.password_input)).send_keys(password) return self def click_submit(self): self.wait.until(EC.element_to_be_clickable(self.submit_button)).click() def get_error_message(self): try: return self.wait.until(EC.visibility_of_element_located(self.error_message)).text except: return None # tests/test_login.py import pytest from pages.login_page import LoginPage def test_valid_login(driver): # 假设driver通过fixture注入 login_page = LoginPage(driver) login_page.enter_username(“valid_user”).enter_password(“valid_pass”).click_submit() # 断言登录成功，例如跳转到首页 assert “Dashboard” in driver.title def test_invalid_login(driver): login_page = LoginPage(driver) login_page.enter_username(“wrong”).enter_password(“wrong”).click_submit() error_msg = login_page.get_error_message() assert error_msg is not None assert “Invalid” in error_msg

POM的好处显而易见：可维护性（页面元素变了，只需改一个页面类）、可读性（测试脚本像自然语言）、可复用性（多个测试用例可以复用同一个页面类）。

7.2 数据驱动测试

将测试数据（输入、预期结果）与测试脚本分离。通常使用外部文件（如JSON, YAML, Excel, CSV）或数据库来存储数据。

使用pytest和参数化实现数据驱动：

# test_data/login_data.py import pytest LOGIN_TEST_DATA = [ (“valid_user”, “valid_pass”, True, None), # 用户名，密码，是否成功，预期错误信息 (“”, “valid_pass”, False, “Username is required”), (“valid_user”, “”, False, “Password is required”), (“wrong”, “wrong”, False, “Invalid credentials”), ] # tests/test_login_ddt.py import pytest from pages.login_page import LoginPage @pytest.mark.parametrize(“username, password, expected_success, expected_error”, LOGIN_TEST_DATA) def test_login_with_data(driver, username, password, expected_success, expected_error): login_page = LoginPage(driver) login_page.enter_username(username).enter_password(password).click_submit() if expected_success: assert “Dashboard” in driver.title else: actual_error = login_page.get_error_message() assert actual_error is not None assert expected_error in actual_error

这样，你只需要在LOGIN_TEST_DATA列表里增删改数据，就能轻松增加新的测试用例，无需修改测试函数本身。

8. 工具链与生态整合

Selenium不是一个孤岛。在实际项目中，它总是与一系列其他工具协同工作。

测试框架：
- Python:pytest是目前最主流的选择，功能强大，插件丰富（如pytest-html生成报告，pytest-xdist并行测试）。
- Java:TestNG或JUnit。
- 框架负责测试发现、运行、前置后置条件（setup/teardown）、断言和报告。
报告生成：光有测试结果不够，需要直观的报告。Allure是一个功能强大的测试报告框架，能生成非常美观的交互式报告，展示测试步骤、截图、日志等。pytest-html则可以生成简单的HTML报告。
持续集成/持续部署 (CI/CD)：将自动化测试集成到CI/CD流水线（如Jenkins, GitLab CI, GitHub Actions）中，实现代码提交后自动触发测试，快速反馈质量。你需要将浏览器（或无头浏览器）和驱动安装在CI服务器或使用Docker容器。
Docker化：使用Docker镜像（如selenium/standalone-chrome）可以快速、一致地部署包含浏览器和驱动的测试环境，特别适合CI/CD。
其他浏览器自动化工具对比：
- Playwright：微软出品，后起之秀。支持Chromium, Firefox, WebKit三大内核，API设计现代，自动等待机制更智能，录制工具强大。在速度、稳定性和功能上有后来居上之势。
- Cypress：专注于现代Web应用测试，运行在浏览器内部，测试和调试体验极佳。但其架构决定了它不能用于跨域测试或驱动多种浏览器。
- Puppeteer：Google出品，主要驱动Chrome/Chromium，对Chrome DevTools Protocol的控制力极强，常用于爬虫和生成PDF。但测试生态不如Selenium丰富。

如何选择？对于需要强跨浏览器支持、与多种编程语言和现有测试框架集成的成熟企业级测试套件，Selenium依然是稳妥、社区支持最全面的选择。对于新项目，且主要针对Chromium系浏览器，追求开发体验和执行速度，可以认真考虑Playwright。

自动化测试是一条需要持续学习和实践的道路。Selenium作为入门和深耕的基石，其概念和模式（如元素定位、等待、Page Object）是通用的。掌握了它，你再学习Playwright或其他工具会事半功倍。这篇简介希望能帮你打好地基，理解Selenium是什么、为什么以及怎么开始用。接下来，你就可以深入探索更具体的主题，比如高级定位技巧、处理复杂Ajax页面、与API测试结合、搭建测试框架等等。记住，最好的学习方式就是动手，从一个真实的小项目开始，边做边学，遇到问题再去查阅文档和社区，这样成长最快。

查看全文

http://www.jsqmd.com/news/1131513/