当前位置：首页 > news >正文

Selenium自动化测试入门：从环境搭建到实战避坑指南

news 2026/7/1 23:53:02

1. 项目概述：为什么是Selenium？

如果你正在寻找一个能让你在浏览器里“为所欲为”的Python工具，Selenium绝对是那个绕不开的名字。它不是什么新潮的框架，但却是Web自动化领域最经典、最强大的“瑞士军刀”。简单来说，Selenium能让你用代码模拟一个真实用户的所有操作：打开网页、点击按钮、输入文字、下拉选择、甚至处理弹窗和验证码（当然，复杂的验证码需要额外策略）。从数据抓取、日常重复性工作自动化，到复杂的Web应用功能测试，它的身影无处不在。

我最初接触Selenium是为了解决一个烦人的日报填报问题。每天都要打开十几个内部系统，复制粘贴一堆数据，耗时又容易出错。手动操作半小时，用Selenium写个脚本，不到5分钟全搞定，而且从不出错。这种“解放双手”的成就感，是驱动我深入研究它的最大动力。对于初学者，你可能会被它庞大的API和偶尔“调皮”的网页元素吓到，但别担心，一旦掌握了核心逻辑和几个关键技巧，你会发现它其实非常友好。本教程的目标，就是带你从零开始，避开我当年踩过的坑，快速成为一名能解决实际问题的Selenium实战派。

2. 环境搭建与核心组件解析

工欲善其事，必先利其器。Selenium的环境搭建是第一步，也是最容易让新手卡住的地方。很多人倒在了驱动下载和版本匹配上。别慌，我们一步步来。

2.1 Python与Selenium库安装

首先，确保你有一个Python环境（3.6及以上版本都行）。打开你的终端（Windows是CMD或PowerShell，Mac/Linux是Terminal），使用pip这个包管理工具进行安装，这是最直接的方式：

pip install selenium

如果你遇到了网络问题，可以使用国内的镜像源来加速，比如清华源：

pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple

安装成功后，你可以在Python交互环境中输入import selenium来验证，没有报错就说明库安装好了。但请注意，这仅仅是安装了Selenium的Python客户端库，它是一套命令的集合，负责向浏览器发送指令。真正执行这些指令的“驾驶员”——浏览器驱动，我们还没请来。

2.2 浏览器驱动的秘密与配置

这是Selenium入门的第一道坎，也是最重要的概念之一。Selenium本身不能直接控制浏览器，它需要通过一个名为“WebDriver”的桥梁来与浏览器对话。不同的浏览器需要不同的驱动：

Chrome/Chromium：需要ChromeDriver
Firefox：需要GeckoDriver
Edge：需要Microsoft Edge WebDriver

以最常用的Chrome为例，你需要做两件事：

查看你的Chrome浏览器版本：在浏览器地址栏输入chrome://settings/help即可看到。
下载对应版本的ChromeDriver：访问 ChromeDriver官网或国内镜像站，下载与你的Chrome浏览器主版本号一致的驱动。比如你的Chrome是 115.0.5790.102，那么你就需要下载版本号为115的ChromeDriver。

注意：版本匹配是关键！版本不匹配最常见的错误就是SessionNotCreatedException，提示“This version of ChromeDriver only supports Chrome version XX”。如果官网没有完全一致的版本，就选择版本号最接近的。

下载下来的是一个可执行文件（Windows是.exe， Mac/Linux 无后缀）。接下来有三种配置方式，我推荐第一种，最适合新手和项目化：

方式一：将驱动放在系统PATH路径下这是最一劳永逸的方法。将下载的chromedriver.exe文件，复制到Python的安装目录下（或者任何已存在于系统环境变量PATH中的目录，比如Windows的C:\Windows\）。这样，你在代码中就不需要指定驱动路径了。

方式二：在代码中指定驱动路径（推荐给项目）将chromedriver.exe放在你的项目文件夹里，然后在初始化浏览器时指明路径：

from selenium import webdriver from selenium.webdriver.chrome.service import Service # 指定驱动路径 service = Service(executable_path='./chromedriver') # 假设驱动放在项目根目录 driver = webdriver.Chrome(service=service)

方式三：使用第三方管理工具（如webdriver-manager）对于需要频繁更新或跨团队协作的项目，这是一个优雅的解决方案。它会自动检测浏览器版本并下载匹配的驱动。

pip install webdriver-manager

from selenium import webdriver from selenium.webdriver.chrome.service import Service from webdriver_manager.chrome import ChromeDriverManager service = Service(ChromeDriverManager().install()) driver = webdriver.Chrome(service=service)

我个人在快速原型和小项目上用方式二，清晰明了；在正式项目或团队协作中用方式三，省去管理驱动的麻烦。方式一虽然方便，但在多版本浏览器共存的环境下容易混乱。

3. 从零开始：你的第一个自动化脚本

环境配好了，让我们来点实际的，写一个能跑起来的脚本。这个过程就像教一个刚学会拿筷子的机器人去夹菜，每一步都要清晰明确。

3.1 启动浏览器与访问网页

我们来写一个最简单的脚本：打开百度，在搜索框输入“Selenium”，然后点击“百度一下”按钮。

from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys import time # 1. 创建浏览器驱动实例，这里以Chrome为例 # 如果你将chromedriver放在了PATH里，可以直接这样写 driver = webdriver.Chrome() # 2. 打开目标网址 driver.get("https://www.baidu.com") # 等待2秒，让页面充分加载（实际项目中会用更智能的等待，这里先简单处理） time.sleep(2) # 3. 找到搜索框并输入文字 # 通过元素的ID属性来定位。在百度首页，搜索框的ID是'kw' search_box = driver.find_element(By.ID, 'kw') search_box.send_keys("Selenium") # 模拟键盘输入 # 4. 找到“百度一下”按钮并点击 # 按钮的ID是'su' search_button = driver.find_element(By.ID, 'su') search_button.click() # 5. 等待一下，看看搜索结果 time.sleep(3) # 6. 关闭浏览器 driver.quit()

把这段代码保存为first_script.py并运行。你应该会看到一个Chrome浏览器窗口自动弹出，完成搜索后关闭。恭喜你，你的第一个Web自动化程序诞生了！

关键点解析：

webdriver.Chrome()：这行代码会启动一个全新的、干净的Chrome浏览器实例。你可能会注意到它没有历史记录、没有插件，这是一个专供自动化测试的“纯净”环境。
driver.get(url)：导航到指定网址，相当于你在地址栏输入并回车。
find_element(By.ID, 'kw')：这是Selenium最核心的操作之一——元素定位。By.ID是定位策略，表示通过HTML元素的id属性来查找。'kw'就是百度搜索框的id值。几乎所有自动化操作都始于“找到那个元素”。
send_keys()和click()：找到元素后，我们就可以与之交互。send_keys用于输入文本，click用于模拟鼠标点击。
driver.quit()：非常重要！它会关闭浏览器并释放WebDriver进程。务必在脚本结束时调用，否则后台会残留浏览器进程，消耗资源。

3.2 元素定位：八种武器详解

如果说Selenium自动化是“寻宝”，那么元素定位就是你的“藏宝图”。找不到元素，一切操作都无从谈起。Selenium提供了8种主要的定位方式，你需要根据页面实际情况灵活选择。

1. ID定位 (By.ID)最优先使用的方式。ID在HTML中应该是唯一的，定位最快、最准确。

element = driver.find_element(By.ID, “loginButton”)

2. Name定位 (By.NAME)次优先。Name属性也常用于表单元素，但可能不唯一。

element = driver.find_element(By.NAME, “username”)

3. Class Name定位 (By.CLASS_NAME)一个元素可以有多个class，用这个定位时，需要传入完整的class字符串（多个class用空格隔开）。

element = driver.find_element(By.CLASS_NAME, “btn btn-primary”)

4. Tag Name定位 (By.TAG_NAME)通过标签名定位，如<input>,<div>,<a>。通常一个页面有大量相同标签，所以常与find_elements（复数）结合使用，获取列表后再筛选。

all_links = driver.find_elements(By.TAG_NAME, “a”) # 获取所有链接

5. Link Text & Partial Link Text (By.LINK_TEXT,By.PARTIAL_LINK_TEXT)专门用于定位超链接 (<a>标签)。Link Text需要完全匹配链接的可见文本，Partial Link Text只需匹配部分文本。

# 完全匹配 exact_link = driver.find_element(By.LINK_TEXT, “忘记密码？”) # 部分匹配 partial_link = driver.find_element(By.PARTIAL_LINK_TEXT, “忘记”)

6. CSS Selector定位 (By.CSS_SELECTOR)功能非常强大且灵活的定位方式。如果你熟悉前端CSS，这会是你最得力的工具。它可以通过id、class、属性、层级关系等进行组合定位。

# 通过id (CSS中id用#) element = driver.find_element(By.CSS_SELECTOR, “#submitBtn”) # 通过class (CSS中class用.) element = driver.find_element(By.CSS_SELECTOR, “.primary-button”) # 组合定位：具有class ‘btn’ 且 type属性为 ‘submit’ 的input标签 element = driver.find_element(By.CSS_SELECTOR, “input.btn[type=‘submit’]”) # 层级关系：id为 ‘form’ 的元素下的第一个input子元素 element = driver.find_element(By.CSS_SELECTOR, “#form > input:first-child”)

7. XPath定位 (By.XPATH)功能最强大的定位方式，几乎可以定位任何元素。它通过XML路径语言来遍历页面节点结构。虽然强大，但写起来相对复杂，且性能可能略低于CSS Selector。

# 绝对路径（脆弱，不推荐） element = driver.find_element(By.XPATH, “/html/body/div[1]/form/input[2]”) # 相对路径 + 属性定位（推荐） element = driver.find_element(By.XPATH, “//input[@id=‘username’]”) # 文本内容定位 element = driver.find_element(By.XPATH, “//button[text()=‘登录’]”) # 包含某属性或文本 element = driver.find_element(By.XPATH, “//a[contains(@href, ‘logout’)]”)

定位策略选择心得：我的个人习惯是：ID > Name > CSS Selector > XPath > 其他。

优先使用ID和Name，因为它们通常由开发人员赋予业务含义，最稳定。
如果元素没有ID/Name，但有一个独特的class或属性组合，优先考虑CSS Selector。它的语法更简洁，在现代浏览器中解析速度通常比XPath快。
XPath是最后的王牌，当元素没有任何明显特征，或者需要根据复杂的层级关系、文本内容来定位时使用。尽量避免使用包含索引（如div[1]）的绝对XPath，因为页面结构一变就失效了。
如何查看元素属性？在浏览器中按F12打开开发者工具，使用左上角的箭头工具点击页面元素，即可在右侧的“Elements”面板中看到其HTML代码和所有属性。

4. 核心操作与等待机制：让脚本更智能

找到了元素，接下来就是与它们交互。但网页不是静态的，元素可能还没加载出来，或者操作后页面会变化。如何让脚本“聪明”地等待，是写出稳定自动化脚本的关键。

4.1 常见的浏览器操作API

除了之前用到的click()和send_keys()，还有一些高频操作：

清除输入框：element.clear()
提交表单：element.submit()（通常在输入框内按回车）
获取元素文本：element.text
获取元素属性：element.get_attribute(‘href’)
判断元素是否可见/可用：element.is_displayed()，element.is_enabled()

浏览器导航：

driver.back() # 后退 driver.forward() # 前进 driver.refresh() # 刷新

浏览器窗口操作：

driver.maximize_window() # 最大化 driver.set_window_size(1920, 1080) # 设置大小 driver.get_window_position() # 获取位置

执行JavaScript：这是Selenium的大杀器，可以完成一些标准API做不到的事情。

# 滚动到页面底部 driver.execute_script(“window.scrollTo(0, document.body.scrollHeight);”) # 高亮显示某个元素（调试用） element = driver.find_element(By.ID, “someId”) driver.execute_script(“arguments[0].style.border = ‘3px solid red’”, element)

4.2 三种等待方式：告别`time.sleep`

在第一个脚本里，我们用了time.sleep(2)。这是一种强制等待，也叫“傻等”。它不管页面是否加载完成，都死等2秒。这会导致两个问题：如果页面加载快，就浪费了时间；如果页面加载慢，2秒后元素可能还没出现，导致脚本报错。因此，在生产脚本中，我们应该使用更智能的等待。

1. 隐式等待 (Implicit Wait)在创建driver后设置一次，对整个driver的生命周期都有效。它告诉WebDriver：在查找任何一个元素时，如果元素没有立即找到，就等待一段设定的时间，期间持续尝试查找，直到找到或超时。

driver = webdriver.Chrome() driver.implicitly_wait(10) # 单位：秒

注意：隐式等待是全局设置，只需要设置一次。但它只对find_element和find_elements这类查找操作有效，对元素的其他属性（如是否可点击）无效。

2. 显式等待 (Explicit Wait)这是更强大、更精准的等待方式。它允许你为某个特定的操作或条件设置等待，直到条件满足或超时。你需要配合WebDriverWait类和expected_conditions模块使用。

from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC # 等待直到ID为‘dynamicElement’的元素出现在DOM中 element = WebDriverWait(driver, 10).until( EC.presence_of_element_located((By.ID, “dynamicElement”)) ) # 等待直到元素可点击 button = WebDriverWait(driver, 10).until( EC.element_to_be_clickable((By.ID, “submitBtn”)) ) button.click()

expected_conditions提供了很多预定义条件，如：

title_is/title_contains: 标题是/包含某文字
visibility_of_element_located: 元素可见（不仅存在，而且宽高大于0）
text_to_be_present_in_element: 元素文本包含某文字
alert_is_present: 出现弹窗

3. 强制等待 (time.sleep)如前所述，除非在极少数特殊场景下（如等待一个非Web的客户端组件），否则尽量避免使用。

等待策略最佳实践：我的经验是：混合使用，以显式等待为主。

在创建driver后，设置一个较短的隐式等待（如5-10秒），作为查找元素的默认超时时间。
对于关键操作，特别是点击按钮后页面跳转、元素状态变化等，使用显式等待。这能让你的脚本在页面响应慢时依然稳定，在页面响应快时立刻执行，效率最高。
彻底抛弃在核心逻辑中使用time.sleep的习惯。

5. 高级技巧与实战避坑指南

掌握了基础，我们就可以挑战更复杂的场景了。这些技巧和坑，都是我在实际项目中用“血泪”换来的经验。

5.1 处理弹窗、iframe与多窗口

弹窗 (Alert/Confirm/Prompt)浏览器原生弹窗不是HTML元素，不能用普通的find_element定位。需要用switch_to.alert来切换。

# 触发一个alert driver.find_element(By.ID, “triggerAlert”).click() # 切换到alert对象 alert = driver.switch_to.alert # 获取弹窗文本 print(alert.text) # 点击“接受”（确定） alert.accept() # 点击“取消” # alert.dismiss() # 如果是prompt，还可以输入文字 # alert.send_keys(“Your input”) # alert.accept()

iframe/Frameiframe是页面中的嵌套页面，你需要先“切换”进去，才能操作里面的元素。

# 通过ID、Name或索引切换 driver.switch_to.frame(“frameId”) # ID driver.switch_to.frame(“frameName”) # Name driver.switch_to.frame(0) # 第一个frame # 操作iframe内的元素 iframe_element = driver.find_element(By.TAG_NAME, “button”) iframe_element.click() # 操作完成后，切回主页面 driver.switch_to.default_content()

常见坑：操作完iframe内的元素后忘记切回主页面，导致后续查找元素失败。记住，switch_to.default_content()是你的“回城”技能。

多窗口/标签页点击一个链接，有时会在新窗口打开。你需要管理这些窗口句柄。

# 获取当前所有窗口的句柄 main_window = driver.current_window_handle # 当前窗口句柄 all_windows = driver.window_handles # 所有窗口句柄列表 # 点击打开新窗口的链接 driver.find_element(By.LINK_TEXT, “Open New Window”).click() # 等待新窗口出现 WebDriverWait(driver, 10).until(EC.new_window_is_opened(all_windows)) # 获取所有窗口句柄（此时已更新） new_windows = driver.window_handles # 切换到新窗口 for window in new_windows: if window != main_window: driver.switch_to.window(window) break # 在新窗口操作 print(driver.title) # 关闭新窗口，切回主窗口 driver.close() driver.switch_to.window(main_window)

5.2 文件上传与下载

文件上传对于<input type=“file”>元素，直接使用send_keys传入文件的本地绝对路径即可。千万不要尝试去模拟点击“浏览”按钮然后操作系统文件选择框，那超出了Selenium的能力范围。

upload_element = driver.find_element(By.XPATH, “//input[@type=‘file’]”) upload_element.send_keys(“/Users/yourname/Desktop/test_image.jpg”)

文件下载控制下载行为需要设置浏览器选项（Options）。

from selenium import webdriver from selenium.webdriver.chrome.options import Options chrome_options = Options() prefs = { “download.default_directory”: “/path/to/your/download/folder”, # 设置下载路径 “download.prompt_for_download”: False, # 禁止下载提示 “plugins.always_open_pdf_externally”: True # 总是直接下载PDF } chrome_options.add_experimental_option(“prefs”, prefs) driver = webdriver.Chrome(options=chrome_options)

设置好后，点击下载链接，文件就会自动保存到指定目录。

5.3 应对反爬与检测机制

越来越多的网站能检测到Selenium等自动化工具。它们通过检测浏览器环境中的一些特有标志（如navigator.webdriver属性）来判断。如果你的脚本被识别，可能会被限制访问或要求验证码。

基础反反爬策略：

使用ChromeOptions添加排除参数：这是最常用的一招。

chrome_options = Options() # 添加实验性选项，排除“启用自动化”的提示，并隐藏webdriver特征 chrome_options.add_experimental_option(“excludeSwitches”, [“enable-automation”]) chrome_options.add_experimental_option(‘useAutomationExtension’, False) driver = webdriver.Chrome(options=chrome_options) # 执行CDP命令，覆盖navigator.webdriver属性 driver.execute_cdp_cmd(“Page.addScriptToEvaluateOnNewDocument”, { “source”: “”” Object.defineProperty(navigator, ‘webdriver’, { get: () => undefined }); “”” })

避免使用明显的自动化特征：如极快的点击速度、固定的鼠标移动轨迹。可以引入随机延迟（time.sleep(random.uniform(0.5, 2))）来模拟人类操作。
使用更真实的浏览器环境：可以考虑使用undetected-chromedriver这类第三方库，它能更好地伪装浏览器指纹。

重要提醒：请务必在遵守目标网站robots.txt协议和相关法律法规的前提下使用自动化技术。不要对网站造成过大访问压力，尊重数据所有权。

5.4 实战心得：让脚本更健壮

定位器维护是头等大事：页面结构一变，你的定位器就可能失效。尽量使用相对稳定、有业务含义的属性（如ID、Name）来定位。将定位器集中管理（如放在一个配置文件中），而不是硬编码在代码里，便于维护。

异常处理是必备技能：脚本在运行时总会遇到各种意外（元素未找到、网络超时等）。使用try...except块来捕获异常，并记录日志或进行重试，能让脚本更健壮。

from selenium.common.exceptions import NoSuchElementException, TimeoutException try: element = WebDriverWait(driver, 5).until( EC.presence_of_element_located((By.ID, “unstableElement”)) ) element.click() except TimeoutException: print(“元素未在指定时间内加载，尝试备用方案...”) # 执行备用操作，比如点击另一个按钮，或者刷新页面重试 driver.refresh() except NoSuchElementException: print(“根本找不到这个元素，可能页面结构已变，需要检查定位器。”)

合理使用Page Object模式：当脚本规模变大时，强烈推荐使用Page Object设计模式。它将每个页面封装成一个类，页面的元素定位和操作作为类的方法。这样能使代码结构清晰，避免重复，且易于维护。

Headless模式（无头模式）：在服务器上运行或不需要看到浏览器界面时，可以启用无头模式，节省资源。

chrome_options = Options() chrome_options.add_argument(“--headless”) # 启用无头模式 chrome_options.add_argument(“--disable-gpu”) # 某些系统需要 chrome_options.add_argument(“--window-size=1920,1080”) # 设置窗口大小 driver = webdriver.Chrome(options=chrome_options)

注意，在无头模式下，有些页面的渲染或JavaScript执行可能与有界面模式略有差异，需要进行充分测试。

6. 项目实战：构建一个简单的自动化测试/爬取任务

让我们综合运用以上知识，完成一个稍微复杂点的实战任务：自动登录一个模拟的练习网站（例如 https://the-internet.herokuapp.com/login ），并在登录成功后截图保存。

这个网站结构简单，非常适合练习。我们的目标是：

打开登录页面。
输入用户名和密码。
点击登录按钮。
等待登录成功（页面跳转或出现成功信息）。
对登录成功后的页面进行截图。

from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC import time def test_login(): # 初始化浏览器，并设置一些选项 chrome_options = webdriver.ChromeOptions() chrome_options.add_experimental_option(“excludeSwitches”, [“enable-automation”]) driver = webdriver.Chrome(options=chrome_options) driver.implicitly_wait(5) # 设置全局隐式等待 wait = WebDriverWait(driver, 10) # 创建显式等待对象 try: # 1. 打开登录页面 driver.get(“https://the-internet.herokuapp.com/login”) print(“已打开登录页面。”) # 2. 定位并输入用户名 # 通过ID定位，这个页面的用户名输入框ID是‘username’ username_field = driver.find_element(By.ID, “username”) username_field.clear() # 清空可能存在的默认值 username_field.send_keys(“tomsmith”) # 输入正确的用户名 # 3. 定位并输入密码 password_field = driver.find_element(By.ID, “password”) password_field.send_keys(“SuperSecretPassword!”) # 输入正确的密码 # 4. 定位并点击登录按钮 login_button = driver.find_element(By.CSS_SELECTOR, “button[type=‘submit’]”) login_button.click() print(“已点击登录按钮。”) # 5. 等待登录成功 # 登录成功后，页面会出现一个flash消息，id是‘flash’，并且包含‘success’文本 # 我们等待这个元素出现并且其文本包含‘You logged into’ success_message = wait.until( EC.text_to_be_present_in_element((By.ID, “flash”), “You logged into”) ) print(“登录成功！”) # 6. 截图保存 screenshot_path = “./login_success.png” driver.save_screenshot(screenshot_path) print(f“截图已保存至：{screenshot_path}”) # 可以进一步操作，比如点击登出 logout_button = driver.find_element(By.CSS_SELECTOR, “a.button.secondary.radius”) logout_button.click() print(“已点击登出。”) # 等待登出成功提示 wait.until( EC.text_to_be_present_in_element((By.ID, “flash”), “You logged out”) ) print(“登出成功。”) except Exception as e: # 如果出现任何异常，也截图保存，便于排查 driver.save_screenshot(“./error_screenshot.png”) print(f“程序运行出错：{e}”) raise e # 重新抛出异常，让调用者知道 finally: # 无论成功与否，最后都关闭浏览器 time.sleep(2) # 最后看一眼结果 driver.quit() print(“浏览器已关闭。”) if __name__ == “__main__”: test_login()

这个实战脚本的要点解析：

结构清晰：使用了函数封装，并加入了异常处理和finally块确保浏览器一定被关闭。
等待策略：混合使用了隐式等待和显式等待。对于登录后的成功提示，使用了显式等待，条件精确（文本包含特定内容），保证了脚本的稳定性。
定位器选择：综合使用了ID和CSS Selector。对于登录按钮，使用了属性选择器button[type=‘submit’]，这是一个非常稳健的定位方式。
善后工作：无论是成功还是失败，都进行了截图，这对于调试和记录结果至关重要。并且在finally中关闭浏览器，这是良好的编程习惯。
可扩展性：这个函数很容易被改造成一个通用的登录函数，接收URL、用户名、密码等作为参数。

通过这个完整的例子，你应该能感受到，一个健壮的Selenium脚本不仅仅是API的堆砌，更是对页面逻辑的理解、对异常情况的预判以及对代码结构的良好组织。从这个小任务出发，你可以尝试更复杂的场景，比如遍历分页表格数据、处理下拉选择框、拖拽操作等，Selenium的API都能为你提供支持。记住，多动手、多调试、多思考页面变化的规律，是掌握这门技术的不二法门。

查看全文

http://www.jsqmd.com/news/1105508/