当前位置：首页 > news >正文

Python 爬虫进阶技巧：爬虫限速与令牌桶算法实现

news 2026/5/4 3:16:12

前言

在网络爬虫工程落地实践中，高频无节制的并发请求、短时间密集访问目标站点，是引发 IP 封禁、接口限流、验证码拦截、WAF 拦截、账号封禁等风控问题的核心诱因。多数初级爬虫开发者仅关注爬取效率，盲目提升请求频率与并发数量，忽视站点访问规则与服务器承载阈值，最终导致爬虫生命周期大幅缩短，数据采集任务被迫中断。爬虫限速作为风控规避的核心基础手段，通过人为控制请求间隔、限制单位时间请求总量、平滑请求频率，模拟自然人正常浏览行为节奏，降低站点访问异常特征，从源头规避反爬拦截策略。

常规固定延时休眠仅能实现简单粗暴的匀速限速，无法适配动态并发、突发请求、分布式多节点爬取等复杂场景，存在并发冲突、资源浪费、限速精度不足等缺陷。令牌桶算法作为工业级通用流量控制与频率限制算法，具备限流精准、突发兼容、平滑控速、资源可控等核心优势，可灵活适配单线程、多线程、异步协程、分布式爬虫等全架构场景，是高性能爬虫精细化限速的最优解决方案。

本文将全面剖析爬虫限速的业务价值、常规延时限速的底层缺陷、主流限流算法差异对比，深度讲解令牌桶算法核心原理、运行机制与参数逻辑，结合原生手写令牌桶、线程安全令牌桶、异步令牌桶、分布式令牌桶多维度代码实现，搭配多组对比表格、完整可运行案例、原理解析、工程化封装方案，完成爬虫限速体系全维度落地，帮助开发者构建合规、稳定、低风控的爬虫访问体系。

本文涉及核心依赖库官方超链接，便于开发者拓展查阅：

time 标准库官方文档：Python 内置时间操作库，基础延时限速核心依赖。
threading 线程库官方文档：实现线程安全令牌桶，解决多线程并发竞争问题。
asyncio 异步库官方文档：异步协程环境下令牌桶调度基础依赖。
redis-py 官方文档：分布式令牌桶实现核心依赖，支撑多节点统一限流。

一、爬虫限速的核心意义与基础方案弊端

1.1 爬虫限速的核心业务价值

站点服务器均设置有访问频次阈值，短时间高密度请求会被判定为恶意攻击行为。合理的爬虫限速策略具备多重核心价值：第一，模拟真人浏览节奏，弱化爬虫特征，大幅降低 IP 封禁与风控拦截概率；第二，节制性访问目标服务器，降低对方服务负载，规避道德合规风险；第三，平稳控制爬虫并发压力，避免本机网络与硬件资源过载；第四，适配中小型站点弱服务器承载能力，保障长期稳定采集。

1.2 基础延时限速实现与缺陷

最简单的限速方式为固定休眠延时，通过time.sleep()强制间隔请求时间，代码实现简单，应用广泛。

python

运行

import time import requests headers = {"User-Agent":"Mozilla/5.0"} def simple_crawl(url): resp = requests.get(url,headers=headers,timeout=8) return resp.status_code if __name__ == "__main__": url = "https://httpbin.org/get" for _ in range(10): simple_crawl(url) time.sleep(1)

该方案强制每轮请求间隔 1 秒，实现每秒 1 次的访问频率，但存在显著底层缺陷：固定延时无法适配请求耗时波动，请求快慢不一导致实际频率失衡；不支持突发流量，所有请求强制排队等待；多线程、异步场景下完全失效，无法统一管控全局请求频率；并发场景下会出现请求堆积、限速失效问题，仅适用于极简单线程爬虫。

1.3 主流限流算法横向对比

目前互联网主流限流算法包含固定延时、计数器限流、漏桶算法、令牌桶算法四类，适配不同爬虫架构，核心差异如下表所示。

表格

限流算法	控速精度	突发请求兼容	并发支持	资源利用率	适用爬虫场景
固定延时休眠	低	不支持	不支持	低	极简单线程轻量爬虫
固定计数器	中	不支持	一般	中	低频批量静态爬取
漏桶算法	高	不支持	良好	中	流量严格匀速场景
令牌桶算法	极高	完美支持	优秀	高	同步 / 异步 / 分布式全场景爬虫

通过表格对比可明确，令牌桶算法凭借高精度控速、兼容突发请求、全架构适配的综合优势，成为爬虫精细化限速的标准选型方案。

二、令牌桶算法核心原理与运行机制

2.1 令牌桶基础模型

令牌桶算法核心抽象为一个固定容量的容器，即令牌桶。系统以恒定速率持续向桶内生成令牌，每执行一次爬虫请求，必须从桶内获取一枚有效令牌，令牌消耗完毕则请求暂停排队，等待新令牌生成；桶内令牌数量达到最大容量时，新增令牌自动丢弃，避免溢出。

核心核心逻辑拆解：

令牌生成：按照预设速率匀速生成令牌，例如每秒生成 2 枚令牌，代表允许每秒 2 次请求；
令牌存储：令牌桶存在最大容量限制，用于缓存短时未消耗的令牌，兼容突发请求；
令牌消耗：爬虫发起请求前必须申领令牌，申领成功方可执行网络请求；
阻塞等待：桶内无可用令牌时，请求逻辑阻塞等待，直至令牌补充完成。

2.2 核心参数定义

令牌桶算法运行依赖三大核心可控参数，可根据目标站点风控强度灵活调整：

生成速率 rate：单位时间生成令牌数量，直接决定爬虫最大访问频率；
桶容量 capacity：令牌桶最大存储上限，控制突发请求的峰值上限；
剩余令牌 tokens：实时可用令牌数量，动态增减，管控当前请求权限。

2.3 令牌桶相较于漏桶的核心优势

漏桶算法强制请求匀速流出，完全限制突发访问；而令牌桶允许在令牌缓存充足的情况下，短时间内执行批量请求，适配爬虫偶尔批量解析、批量发起请求的业务特性，兼顾限速稳定性与爬取效率，更贴合爬虫实际运行场景。

三、基础版：原生单线程令牌桶实现

3.1 手写极简令牌桶代码

基于时间戳计算令牌生成数量，不依赖第三方库，纯原生实现单线程环境下的令牌桶限流，轻量化无额外依赖。

python

运行

import time class TokenBucket: def __init__(self,rate:float,capacity:int): self.rate = rate self.capacity = capacity self.tokens = capacity self.last_time = time.time() def get_token(self) -> bool: now = time.time() # 计算时间差值，补充新增令牌 delta = now - self.last_time self.tokens += delta * self.rate # 限制令牌最大容量 if self.tokens > self.capacity: self.tokens = self.capacity self.last_time = now # 判断是否存在可用令牌 if self.tokens >= 1: self.tokens -= 1 return True return False def wait_token(self): # 循环阻塞等待令牌 while not self.get_token(): time.sleep(0.01) # 实例化：每秒2个令牌，桶最大容量5 bucket = TokenBucket(rate=2,capacity=5)

3.2 代码核心原理

初始化时填满令牌桶，默认拥有最大容量令牌，支持启动初期突发请求；
通过时间戳差值实时计算周期内新增令牌数量，精准控制生成速率；
令牌自动上限截断，防止令牌无限堆积；
get_token非阻塞申领，wait_token阻塞等待申领，适配不同业务需求。

3.3 爬虫结合实战调用

python

运行

import requests def crawl_task(url): bucket.wait_token() resp = requests.get(url,timeout=8) print(f"请求成功，状态码：{resp.status_code}") if __name__ == "__main__": test_url = "https://httpbin.org/get" for i in range(15): crawl_task(test_url)

运行后可观测，整体请求严格按照每秒 2 次的频率执行，短时可利用缓存令牌快速发起批量请求，限速平稳且高效。

四、进阶版：线程安全令牌桶实现

多线程爬虫场景下，多线程同时申领令牌会引发资源竞争、令牌超发、限速失效等线程安全问题，需通过线程锁保证令牌操作原子性。

4.1 线程安全加强版代码

python

运行

import time import threading class ThreadSafeTokenBucket: def __init__(self,rate:float,capacity:int): self.rate = rate self.capacity = capacity self.tokens = capacity self.last_time = time.time() self.lock = threading.Lock() def get_token(self) -> bool: with self.lock: now = time.time() delta = now - self.last_time self.tokens += delta * self.rate if self.tokens > self.capacity: self.tokens = self.capacity self.last_time = now if self.tokens >= 1: self.tokens -= 1 return True return False def wait_token(self): while not self.get_token(): time.sleep(0.005) # 全局单例令牌桶，多线程共享 bucket = ThreadSafeTokenBucket(rate=3,capacity=6)

4.2 线程安全核心原理

引入threading.Lock互斥锁，将令牌计算、补充、扣除等核心操作加入锁保护，确保同一时刻仅有一个线程修改令牌数量，彻底解决多线程并发竞争导致的令牌超发、计数错乱问题，完美适配线程池爬虫、多线程异步爬取架构。

五、高阶版：异步协程令牌桶实现

异步 aiohttp 爬虫高并发场景中，同步阻塞休眠会破坏事件循环调度效率，需实现异步非阻塞令牌桶，适配协程运行机制。

5.1 异步令牌桶完整代码

python

运行

import time import asyncio class AsyncTokenBucket: def __init__(self,rate:float,capacity:int): self.rate = rate self.capacity = capacity self.tokens = capacity self.last_time = time.time() async def get_token(self): now = time.time() delta = now - self.last_time self.tokens += delta * self.rate if self.tokens > self.capacity: self.tokens = self.capacity self.last_time = now if self.tokens >= 1: self.tokens -= 1 return True return False async def wait_token(self): while not await self.get_token(): await asyncio.sleep(0.01)

5.2 异步爬虫调用示例

python

运行

import aiohttp bucket = AsyncTokenBucket(rate=5,capacity=10) async def async_crawl(url): await bucket.wait_token() async with aiohttp.ClientSession() as session: async with session.get(url,timeout=8) as resp: print(f"异步请求状态码：{resp.status}") async def main(): url = "https://httpbin.org/get" tasks = [async_crawl(url) for _ in range(20)] await asyncio.gather(*tasks) if __name__ == "__main__": asyncio.run(main())

5.3 异步核心原理

使用await asyncio.sleep替代同步休眠，阻塞过程中不会阻塞事件循环，不影响其他协程正常调度，在保障限速规则的同时，保留异步爬虫高并发、低开销的核心优势。

六、企业级：分布式令牌桶方案

分布式爬虫多节点部署场景下，单实例本地令牌桶无法统一全局请求频率，会出现多节点叠加访问超限问题，基于 Redis 实现分布式共享令牌桶，完成全节点统一限流。

6.1 分布式实现核心思路

将令牌数量、最后刷新时间存入 Redis 公共缓存；
利用 Redis 原子操作保证多节点数据一致性；
所有爬虫节点共享同一套令牌规则，全局统一控速；
依托 Redis 过期与持久化机制，保障限流规则稳定运行。

6.2 核心关键代码片段

python

运行

import redis import time redis_client = redis.Redis(host="127.0.0.1",port=6379,db=0) class DistributedTokenBucket: def __init__(self,rate,capacity,key="spider:token"): self.rate = rate self.capacity = capacity self.key = key

分布式令牌桶可有效解决集群爬虫、多进程爬虫的限速失控问题，是中大型爬虫项目的标准落地方案。

七、令牌桶参数调优与爬虫适配策略

7.1 不同站点等级参数配置参考

结合站点反爬强度，差异化调整令牌桶参数，平衡爬取效率与风控安全。

表格

站点类型	令牌生成速率	桶容量	限速策略说明
小型个人站点	1~2 次 / 秒	3~5	低频率、小缓存，严格限速
中型企业站点	3~5 次 / 秒	5~10	均衡频率，适度兼容突发
大型门户站点	8~15 次 / 秒	15~20	高容忍度，提升采集效率
高风控电商站点	0.5~1 次 / 秒	2~3	极低速，最大化规避拦截