当前位置：首页 > news >正文

Python 爬虫实战：批量抓取免费代理IP地址，提升网络爬虫效率与匿名性

news 2026/6/7 2:06:17

在网络爬虫的实战过程中，代理 IP 的使用至关重要。代理不仅能够帮助我们绕过反爬机制，还能保证爬虫在长时间运行时不被封禁。然而，购买代理 IP 的成本往往较高，特别是在处理大量数据时，更需要大量的免费代理 IP来支持高效的抓取。

在本文中，我们将介绍如何使用Python 爬虫技术，批量抓取免费代理 IP 地址，并利用这些代理地址提升爬虫的匿名性、减少被封禁的风险。通过详细的步骤指导和代码示例，帮助大家快速搭建免费的代理池，提高爬虫的可持续性与效率。

技术栈与工具

爬虫工具：
- requests：用于发送 HTTP 请求。
- BeautifulSoup：解析网页，提取代理 IP 数据。
- Selenium（可选）：用于抓取动态网页中的代理信息。
代理池管理：
- threading或multiprocessing：通过多线程或多进程来提高抓取效率。
- random：随机选择代理 IP，避免被检测到。
其他工具：
- pandas：用于处理抓取的代理数据。
- re（正则表达式）：提取网页中的 IP 地址与端口信息。

一、免费代理源的选择

免费代理 IP 地址有很多来源，其中一些网站专门提供公开的代理池。我们将抓取的源网址示例如下：

免费代理 IP 网站：
- https://www.xicidaili.com
- https://www.kuaidaili.com
- https://www.goubanjia.com

这些网站提供了大量免费的代理 IP 地址，可以通过爬虫抓取并使用。

二、抓取免费代理 IP 地址

2.1 使用 requests 与 BeautifulSoup 获取代理列表

我们以西刺代理（https://www.xicidaili.com）为例，编写代码抓取免费代理地址。该网站提供了多个页面的代理 IP，我们可以通过遍历不同的页面来抓取代理 IP。

importrequestsfrombs4importBeautifulSoup# 西刺代理IP地址的首页URLurl='https://www.xicidaili.com/wn/'# 设置请求头，模拟浏览器访问headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}# 发送请求并获取页面内容response=requests.get(url,headers=headers)# 如果请求成功，则解析页面ifresponse.status_code==200:html=response.text soup=BeautifulSoup(html,'html.parser')# 解析页面中的代理IP和端口proxy_list=[]forrowinsoup.find_all('tr')[1:]:# 第一个tr是表头，跳过cols=row.find_all('td')iflen(cols)>5:ip=cols[1].text.strip()port=cols[2].text.strip()proxy_list.append(f'{ip}:{port}')print(proxy_list)else:print('网页请求失败')

在上述代码中，我们通过发送 HTTP 请求并使用 BeautifulSoup 解析网页内容，提取出代理 IP 和端口。每个代理 IP 都由 IP 地址和端口号组成，我们将这些代理 IP 存储到列表中，供后续使用。

2.2 批量抓取多个页面

如果需要抓取多个页面，可以通过修改 URL，遍历分页来实现批量抓取代理 IP 地址。例如，西刺代理每一页的 URL 后缀为wn/2,wn/3等，使用循环遍历不同的页面即可。

# 遍历抓取多个页面proxy_list=[]forpageinrange(1,6):# 假设抓取前5页url=f'https://www.xicidaili.com/wn/{page}'response=requests.get(url,headers=headers)ifresponse.status_code==200:soup=BeautifulSoup(response.text,'html.parser')forrowinsoup.find_all('tr')[1:]:cols=row.find_all('td')iflen(cols)>5:ip=cols[1].text.strip()port=cols[2].text.strip()proxy_list.append(f'{ip}:{port}')else:print(f'页面{page}请求失败')print(f"抓取到的代理IP：{len(proxy_list)}")

通过循环遍历多个页面，我们就能够批量抓取大量的代理 IP 地址。

三、代理 IP 地址的有效性验证

抓取到的代理 IP 地址并不一定都有效，因此，我们需要对代理 IP 进行有效性验证。一般来说，可以通过发起一个简单的请求来测试代理是否有效，比如使用代理地址请求一个网页，如果请求成功则认为该代理有效。

deftest_proxy(proxy):url='https://httpbin.org/ip'# 测试代理是否有效，返回当前IP信息proxies={'http':f'http://{proxy}','https':f'https://{proxy}'}try:response=requests.get(url,proxies=proxies,timeout=5)ifresponse.status_code==200:print(f'代理{proxy}有效')returnTrueexceptrequests.RequestException:print(f'代理{proxy}无效')returnFalsereturnFalse# 过滤有效的代理valid_proxies=[proxyforproxyinproxy_listiftest_proxy(proxy)]print(f'有效代理：{len(valid_proxies)}')

在这个函数中，我们使用了httpbin.org提供的 IP 测试接口来验证代理 IP 是否有效。如果代理 IP 可以成功请求该接口，我们认为它是有效的。

四、构建代理池

一旦我们抓取到有效的代理 IP，就可以将这些 IP 存入代理池中，以便爬虫在运行时随机选取代理来避免被封禁。这里可以使用queue.Queue或者列表等方式存储代理池中的 IP 地址，并随机选择一个代理。

4.1 随机选取代理 IP

importrandom# 从有效代理池中随机选取一个代理defget_random_proxy(valid_proxies):returnrandom.choice(valid_proxies)# 示例：获取一个随机有效代理proxy=get_random_proxy(valid_proxies)print(f"选中的代理：{proxy}")

4.2 结合多线程提高抓取效率

使用多线程（或多进程）可以显著提高抓取代理的效率。例如，使用threading模块并行测试多个代理的有效性。

importthreadingdefworker(proxy_list,valid_proxies):forproxyinproxy_list:iftest_proxy(proxy):valid_proxies.append(proxy)# 创建线程并启动threads=[]valid_proxies=[]foriinrange(4):# 假设启动4个线程进行验证t=threading.Thread(target=worker,args=(proxy_list[i::4],valid_proxies))# 轮流分配代理threads.append(t)t.start()fortinthreads:t.join()print(f"有效代理池：{valid_proxies}")