当前位置：首页 > news >正文

Python 爬虫反爬突破：多层嵌套加密参数拆解技巧

news 2026/5/13 3:38:01

前言

在 Python 爬虫开发的进阶场景中，多层嵌套加密参数已成为主流网站的核心反爬手段。相较于基础的请求头校验、IP 封禁，加密参数通过前端 JS 动态生成、多层算法嵌套、参数时效性校验等机制，直接阻断了传统爬虫的请求合法性，导致爬虫无法获取有效数据。

本文聚焦多层嵌套加密参数的全流程拆解与突破方法，从加密参数的基础识别、定位溯源，到单层级算法还原、多层嵌套逻辑逆向，再到实战落地与自动化维护，系统性讲解加密参数的破解思路与代码实现。本文配套使用的核心工具与库均提供官方超链接，读者可直接访问获取：

Python 官方下载地址
PyExecJS 库官方文档
Chrome 开发者工具官方文档
Node.js 官方下载地址

本文所有案例均基于合法的爬虫学习场景，仅用于技术研究，严禁用于非法数据爬取、商业侵权等违规行为，使用时请严格遵守目标网站的robots协议与《网络安全法》相关规定。

一、多层嵌套加密参数基础认知

1.1 加密参数的定义与核心作用

加密参数是网站前端通过加密算法对请求核心参数（如用户 ID、时间戳、页码、数据签名等）进行编码处理后生成的字符串，通常作为请求 URL 参数、POST 表单参数、请求头参数传递给后端。后端会对接收的加密参数进行解密校验，只有参数合法、未篡改、在有效期内，才会返回数据。

多层嵌套加密参数，是指参数生成过程中使用了两种及以上加密算法嵌套调用，例如：先对原始数据进行 MD5 加密，再将结果进行 Base64 编码，最后拼接时间戳进行 RSA 加密，最终生成的参数即为三层嵌套加密参数。

1.2 多层嵌套加密参数的常见类型

主流网站的多层嵌套加密参数主要分为以下四类，覆盖 90% 以上的反爬场景：

表格

加密类型	核心算法	嵌套特点	适用场景
对称加密嵌套	AES+Base64、DES+MD5	加密解密使用同一密钥，多层轻量算法叠加	接口高频请求、参数体积小
非对称加密嵌套	RSA+SHA256、ECC+Base64	公钥加密私钥解密，嵌套哈希算法防篡改	登录、支付、敏感数据接口
哈希加密嵌套	MD5+SHA1、HmacSHA256 + 时间戳	单向加密不可解密，嵌套动态参数防重放	数据签名、接口鉴权
自定义加密嵌套	原生 JS 算法 + 标准算法	网站自定义逻辑 + 通用算法混合嵌套	个性化反爬、高防护网站

1.3 多层嵌套加密参数的反爬核心逻辑

网站通过多层嵌套加密实现三重反爬防护：

合法性校验：未经过加密算法生成的参数，后端直接判定为非法请求；
防篡改校验：参数被修改后，解密结果与原始数据不匹配，请求被拒绝；
时效性校验：嵌套时间戳、随机数等动态参数，参数过期后自动失效，防止爬虫复用参数。

传统爬虫直接抓取接口、复制参数的方式，会因参数无效、非法、过期导致请求失败，这也是多层嵌套加密成为高阶反爬标配的核心原因。

二、爬虫环境准备：必备工具与依赖库

突破多层嵌套加密参数，需要搭建标准化的开发环境，核心工具分为浏览器调试工具、Python 运行环境、JS 代码执行环境三类，所有工具均为开源免费，配置流程简单。

2.1 核心工具配置

Chrome 浏览器必备调试工具，用于定位加密参数生成位置、断点调试 JS 代码，本文所有前端调试均基于 Chrome 开发者工具。
Node.js 环境用于执行前端加密 JS 代码，还原加密逻辑，避免 Python 直接编写复杂加密算法的繁琐性，安装后需配置环境变量。
文本编辑器VS Code、PyCharm 均可，用于编写 Python 爬虫代码与还原加密 JS 代码。

2.2 Python 必备依赖库

通过pip命令安装核心库，所有库均支持 Python3.7 及以上版本：

bash

运行

# 安装网络请求库，用于发送爬虫请求 pip install requests==2.31.0 # 安装JS执行库，用于Python调用加密JS代码 pip install PyExecJS==1.5.1 # 安装数据解析库，用于处理接口返回数据 pip install lxml==4.9.3 # 安装时间处理库，用于生成动态加密参数 pip install python-dotenv==1.0.0

2.3 环境验证代码

执行以下代码，验证环境是否配置成功：

python

运行

import execjs import requests # 验证PyExecJS是否正常调用Node.js print("JS环境版本：", execjs.get().name) # 验证网络请求是否正常 print("网络请求状态：", requests.get("https://www.baidu.com").status_code)

运行结果：若输出JS环境版本：Node.js (Vxx.x.x)和网络请求状态：200，则环境配置完成。

三、多层嵌套加密参数的定位与溯源技巧

突破加密参数的第一步，是找到加密参数在前端 JS 中的生成位置与生成逻辑，这是整个逆向过程的核心基础。Chrome 开发者工具的「Network」「Sources」面板是定位的核心工具，本文提供三种高效定位方法，适用于所有嵌套加密场景。

3.1 全局搜索法：快速定位加密参数名称

适用场景：已知加密参数名称，未知生成位置操作步骤：

打开 Chrome 浏览器，按F12打开开发者工具，切换到「Network」面板，勾选「Preserve log」（保留请求日志）；
触发目标接口请求（如点击分页、刷新页面），找到包含加密参数的请求，复制加密参数名称（如sign、token、encrypt_data）；
切换到「Sources」面板，按Ctrl+Shift+F打开全局搜索框，粘贴加密参数名称，搜索所有包含该参数的 JS 文件；
筛选结果：重点关注参数名 =、参数名:、生成函数(参数名)等代码行，即为加密参数生成入口。

核心原理：前端加密参数必须通过 JS 代码赋值生成，全局搜索可直接命中参数生成的核心代码段，排除无关代码干扰。

3.2 XHR 断点法：精准拦截参数生成过程

适用场景：加密参数嵌套复杂、全局搜索结果过多，无法快速定位操作步骤：

开发者工具切换到「Sources」面板，找到「XHR/Fetch Breakpoints」（XHR 断点）；
点击「Add breakpoint」，输入目标接口的 URL 关键词（如/api/data），设置断点；
触发接口请求，代码会在请求发送前暂停执行；
查看「Call Stack」（调用栈），逐层向上追溯代码，找到参数生成的函数与逻辑。

核心原理：XHR 断点会在前端发送 AJAX 请求前暂停 JS 执行，此时加密参数已生成但未发送，可直接追溯参数的生成链路，避免在海量 JS 代码中盲目查找。

3.3 关键字定位法：适配自定义加密场景

适用场景：网站使用自定义加密函数，无标准参数名称核心关键字列表（直接搜索即可命中加密逻辑）：encrypt、decrypt、md5、sha、aes、rsa、base64、encode、decode、crypto、digest

操作步骤：在全局搜索框中输入上述关键字，结合代码上下文判断是否为加密核心函数，重点关注包含多层函数调用的代码。

四、单层级加密算法还原：嵌套拆解基础

多层嵌套加密参数的本质是多个单层级加密算法的顺序调用，因此必须先掌握单层级加密算法的还原方法，本文讲解四种最常用的单层级加密算法的原理与 Python/JS 实现，这是破解多层嵌套的基础。

4.1 Base64 加密 / 解密

4.1.1 算法原理

Base64 是一种基于 64 个可打印字符的编码算法，不属于严格意义上的加密算法，但常作为嵌套加密的最后一层，用于将二进制数据转换为字符串，方便传输。核心是将 3 字节数据转换为 4 字节字符，不足 3 字节时用=补齐。

4.1.2 代码实现与原理

python

运行

import base64 # 原始数据 original_data = "python_spider_encrypt" # Base64加密 encrypt_data = base64.b64encode(original_data.encode("utf-8")).decode("utf-8") # Base64解密 decrypt_data = base64.b64decode(encrypt_data).decode("utf-8") print("Base64加密结果：", encrypt_data) print("Base64解密结果：", decrypt_data)

原理剖析：代码通过b64encode将字符串编码为字节流，再转换为 Base64 字符串；b64decode反向还原，是所有嵌套加密中最基础的编码方式。

4.2 MD5 哈希加密

4.2.1 算法原理

MD5 是单向哈希加密算法，将任意长度的数据转换为 128 位（32 字符）的哈希值，不可逆，常与其他算法嵌套生成数据签名，用于防篡改。

4.2.2 代码实现与原理

python

运行

import hashlib def md5_encrypt(original_str): # 创建md5对象 md5 = hashlib.md5() # 编码并更新数据 md5.update(original_str.encode("utf-8")) # 返回32位小写哈希值 return md5.hexdigest() # 调用函数 result = md5_encrypt("spider_2025_timestamp") print("MD5加密结果：", result)

原理剖析：hashlib.md5()初始化加密对象，update()传入原始数据，hexdigest()生成固定长度的哈希值，单向加密无法解密，后端通过对比哈希值校验数据是否篡改。

4.3 AES 对称加密

4.3.1 算法原理

AES 是高级对称加密算法，需要密钥（key）和偏移量（iv），加密和解密使用同一组密钥，常嵌套 Base64 使用，是电商、资讯类网站最常用的加密算法。

4.3.2 代码实现与原理

python

运行

from Crypto.Cipher import AES from Crypto.Util.Padding import pad import base64 # AES加密配置（密钥和偏移量需与前端一致） key = b"1234567890123456" # 16位密钥 iv = b"1234567890123456" # 16位偏移量 def aes_encrypt(original_str): # 初始化AES加密器 cipher = AES.new(key, AES.MODE_CBC, iv) # 填充数据至16字节倍数 padded_data = pad(original_str.encode("utf-8"), AES.block_size) # 加密并Base64编码 encrypted_bytes = cipher.encrypt(padded_data) return base64.b64encode(encrypted_bytes).decode("utf-8") # 调用加密 result = aes_encrypt("page=1&size=10") print("AES加密结果：", result)

原理剖析：AES 采用 CBC 加密模式，需要对原始数据进行填充处理，加密后的字节流通过 Base64 转换为字符串，是两层嵌套加密（AES+Base64）的核心实现。

4.4 HmacSHA256 加密

4.4.1 算法原理

HmacSHA256 是带密钥的哈希加密算法，结合密钥和原始数据生成哈希值，安全性高于普通 MD5，常嵌套时间戳使用，用于接口鉴权。

4.4.2 代码实现与原理

python

运行

import hmac import hashlib def hmac_sha256_encrypt(original_str, secret_key): # 初始化加密器 hmac_obj = hmac.new(secret_key.encode("utf-8"), original_str.encode("utf-8"), hashlib.sha256) # 返回十六进制结果 return hmac_obj.hexdigest() # 调用函数 result = hmac_sha256_encrypt("timestamp=1712345678", "spider_secret_key") print("HmacSHA256加密结果：", result)

原理剖析：通过密钥和原始数据双重加密，后端通过相同密钥和算法校验参数，有效防止无密钥爬虫伪造参数。

五、多层嵌套加密参数的逆向拆解核心流程

多层嵌套加密参数的突破，核心是还原前端加密的算法顺序、参数传递、动态值生成逻辑，本文总结标准化的 5 步拆解流程，适用于所有嵌套加密场景。

5.1 第一步：梳理加密算法嵌套顺序

通过 Chrome 开发者工具断点调试，记录加密参数的生成步骤：

记录原始明文参数（如页码、时间戳、用户 ID）；
记录每一层加密的算法类型（如第一层 MD5、第二层 Base64、第三层 AES）；
记录算法之间的传递关系（上一层加密结果作为下一层的输入参数）；
记录动态参数（时间戳、随机数）的生成方式。

示例：某网站加密顺序为原始参数 → MD5加密 → 拼接时间戳 → AES加密 → Base64编码，即为四层嵌套加密。

5.2 第二步：提取前端加密核心 JS 代码

多层嵌套加密的核心逻辑均封装在 JS 函数中，需提取完整的加密函数，删除无关代码（如 DOM 操作、页面渲染代码），确保代码可独立运行。

提取规则：

保留所有加密相关的函数、变量、密钥；
删除document、window等浏览器专属对象（Node.js 不支持）；
补全缺失的依赖函数（如自定义的字符串处理函数）。

5.3 第三步：Python 调用 JS 代码执行加密

使用PyExecJS库将提取的 JS 代码编译为可执行对象，Python 传入原始参数，直接调用加密函数生成嵌套加密参数，避免手动编写多层算法的繁琐性。

5.4 第四步：动态参数同步生成

多层嵌套加密通常包含时间戳、随机数、设备标识等动态参数，必须保证爬虫生成的动态参数与前端完全一致，否则加密结果无效。

时间戳：使用time.time()生成 10 位 / 13 位时间戳，与前端精度一致；
随机数：使用random模块生成与前端长度、规则一致的随机字符串；
设备标识：模拟前端生成的 UA、设备 ID 等参数。

5.5 第五步：参数校验与请求测试

将生成的嵌套加密参数带入爬虫请求，测试接口是否返回有效数据：

若请求成功，说明加密逻辑还原完整；
若请求失败，检查算法顺序、密钥、动态参数是否与前端一致；
若参数过期，优化动态参数生成逻辑，保证参数时效性。

六、实战案例：三层嵌套加密参数全流程突破

本文以资讯类网站列表接口为例，该网站采用MD5 + AES + Base64三层嵌套加密参数sign，无前端验证码、无 IP 封禁，仅通过加密参数反爬，完整演示从定位、溯源、还原到爬虫落地的全流程。

6.1 目标网站加密参数分析

接口地址：https://demo.spider.com/api/news/list
请求方式：POST
请求参数：page（页码）、timestamp（13 位时间戳）、sign（三层嵌套加密参数）
加密规则：第一层：原始字符串page={page}&timestamp={timestamp}进行 MD5 加密；第二层：第一层结果进行 AES-128-CBC 加密；第三层：第二层结果进行 Base64 编码，最终生成sign参数。

6.2 前端加密 JS 代码提取

通过 Chrome 开发者工具定位并提取加密代码，优化后可独立运行：

javascript

运行

// 加密密钥与偏移量（与后端一致） const key = "abcdef1234567890"; const iv = "1234567890abcdef"; // MD5加密（第一层） function md5Encrypt(str) { const md5 = require('crypto').createHash('md5'); return md5.update(str).digest('hex'); } // AES加密（第二层） function aesEncrypt(str) { const crypto = require('crypto'); const cipher = crypto.createCipheriv('aes-128-cbc', key, iv); let encrypted = cipher.update(str, 'utf8', 'base64'); encrypted += cipher.final('base64'); return encrypted; } // Base64编码（第三层） function base64Encrypt(str) { return Buffer.from(str).toString('base64'); } // 三层嵌套加密总函数 function generateSign(page, timestamp) { const originalStr = `page=${page}&timestamp=${timestamp}`; const step1 = md5Encrypt(originalStr); const step2 = aesEncrypt(step1); const step3 = base64Encrypt(step2); return step3; }

6.3 Python 爬虫代码实现

通过 PyExecJS 调用 JS 加密函数，生成嵌套加密参数，发送请求获取数据：

python

运行

import execjs import requests import time # 读取加密JS代码 with open("encrypt.js", "r", encoding="utf-8") as f: js_code = f.read() # 编译JS代码 ctx = execjs.compile(js_code) # 爬虫核心函数 def get_news_list(page): # 生成13位时间戳（与前端一致） timestamp = str(int(time.time() * 1000)) # 调用JS函数生成三层嵌套加密参数sign sign = ctx.call("generateSign", page, timestamp) # 构造请求参数 url = "https://demo.spider.com/api/news/list" data = { "page": page, "timestamp": timestamp, "sign": sign } # 请求头（模拟浏览器，基础反爬规避） headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36", "Content-Type": "application/x-www-form-urlencoded" } # 发送请求 response = requests.post(url, data=data, headers=headers) # 校验响应 if response.status_code == 200 and "data" in response.json(): print(f"第{page}页数据获取成功：", response.json()["data"]) return response.json()["data"] else: print(f"第{page}页请求失败：", response.text) return None # 批量爬取1-5页数据 if __name__ == "__main__": for page in range(1, 6): get_news_list(page) time.sleep(1) # 降低请求频率，合规爬虫