当前位置：首页 > news >正文

Python 爬虫反爬突破：JS 逆向混淆与加密参数破解实战

news 2026/6/24 18:31:08

前言

在前五篇反爬专栏中，完整覆盖了浏览器指纹、硬件特征、无头伪装、访问频率等环境层反爬对抗方案，而前端 JS 加密与代码混淆，是现阶段企业级站点最高频、最难绕过的核心反爬手段。主流平台不再单纯依赖环境检测拦截爬虫，而是通过前端对请求参数、报文载荷、响应校验、签名算法进行多层加密混淆，即便成功伪造浏览器环境、规避频率限制，缺失合法加密参数的请求依旧会直接拦截、数据加密返回、接口拒绝访问。

JS 逆向混淆涵盖变量加密、函数混淆、控制流平坦化、字符串加密、调试反断点、虚拟机 JS、动态密钥生成等多重防护手段，常规直接抓包复制参数的爬虫开发模式完全失效。多数站点会对sign签名、token令牌、timestamp时间戳、nonce随机串、data载荷加密等核心字段做动态计算，每一次请求参数实时变化，无法固定复用，大幅提升爬虫开发门槛。

本文作为反爬进阶新篇章，深度拆解前端 JS 混淆原理、常见加密算法、反调试绕过、静态 AST 分析、动态断点调试、扣代码还原、Python 同源算法复现全套实战流程，搭配大量可运行工程案例、底层逻辑解析、混淆代码还原技巧，打通 JS 加密类站点的爬虫突破难点。全文延续专栏高标准写作规范，配备开源工具超链接、标准化代码块、原理注解、工程化优化方案，适配中高强度 JS 逆向实战场景。

本章所需核心工具、开源库、官方文档超链接汇总：

PyExecJS 官方文档
Node.js 运行环境下载
jsbeautifier 代码格式化工具
AST 抽象语法树解析库
cryptography Python 加密库

全文基于 Python3.8 + 开发，兼容 Windows 与 Linux 服务端，所有逆向案例均采用市面主流混淆方案实操编写，代码可直接落地复用，适配电商、资讯、社交、政务等高加密站点的数据采集需求。

一、前端 JS 反爬核心体系与加密分类

1.1 主流 JS 反爬实现形式

现代前端反爬并非单一加密，而是多层防护组合架构，主要分为五大类：

参数签名加密：URL 参数、POST 请求体携带 sign、md5、sha、hmac 等动态签名，参数篡改即失效；
载荷整体加密：接口提交 data、body 经过 AES、RSA、SM4 等对称 / 非对称加密，后端解密校验；
响应数据加密：服务端返回密文数据，前端 JS 解密渲染，爬虫拿到原始加密文本无法解析；
代码混淆加固：变量名乱码、函数扁平化、字符串编码、反调试、无限定时器断点，阻止逆向分析；
动态密钥下发：密钥随时间、设备指纹、会话 token 动态变化，固定算法无法长期使用。

1.2 高频加密算法应用场景

前端加密不会自定义复杂算法，均基于通用加密函数二次封装，下表为逆向开发高频算法：

表格

加密算法	类型	应用场景	逆向难度
MD5/SHA1/SHA256	单向哈希	接口签名、密码加密、参数摘要	低
AES/DES	对称加密	表单载荷、响应数据、敏感报文	中
RSA/SM2	非对称加密	密钥传输、核心接口鉴权	高
Base64/UrlEncode	编码转换	字符串混淆、简易伪装	极低
时间戳 + 随机数	动态因子	防重放、一次性请求校验	低

1.3 JS 代码混淆核心手段

站点为增加逆向成本，会对核心加密 JS 进行高强度混淆处理，常见混淆特征：

变量、函数名采用单字母、乱码、十六进制编码，丧失语义化；
控制流平坦化，大量 if、else、switch 嵌套打乱代码执行顺序；
字符串 Unicode、Base64、十六进制加密存储，运行时动态解密；
反调试机制：检测开发者工具、无限 debugger、定时器断点；
垃圾代码注入、无效分支冗余，增加代码阅读难度。

1.4 JS 逆向常规开发流程

标准化逆向流程可大幅提升破解效率，通用步骤如下：

抓包定位加密参数，确定需要破解的字段生成逻辑；
通过 Initiator 调用栈，锁定核心加密 JS 文件与函数；
绕过反调试，断点拦截加密函数调用；
格式化混淆代码，还原变量与逻辑结构；
扣取核心加密代码，本地 Node 环境调试运行；
Python 复写同源算法或直接调用 JS 代码；
联调测试，保证参数生成与浏览器完全一致。

二、JS 反调试绕过与代码格式化

2.1 常见反调试手段绕过

无限 debugger、控制台检测、定时器断点是最基础的反调试方案，也是逆向第一步需要解决的问题。

2.1.1 绕过无限 Debugger

混淆代码中高频出现debugger;强制断点阻塞调试，通用绕过代码：

javascript

运行

// 控制台注入覆盖debugger方法 Function.prototype.constructor = function(){}; window.debugger = function(){};

核心原理

重写 Function 构造函数与全局 debugger 对象，使断点指令失效，浏览器不会强制中断执行。

2.1.2 禁用开发者工具检测

前端通过窗口尺寸、控制台特性判断是否开启 F12 调试，注入屏蔽脚本：

javascript

运行

// 屏蔽控制台检测 Object.defineProperty(window, 'outerHeight', {value: 1080}); Object.defineProperty(window, 'outerWidth', {value: 1920});

2.2 混淆 JS 代码格式化还原

压缩混淆代码无换行、无缩进、变量乱码，借助 jsbeautifier 库实现 Python 端自动格式化。

python

运行

import jsbeautifier # 混淆压缩JS代码 obfuscate_js = "function a(b){var c=b.split('');return c.reverse().join('')}" # 代码格式化还原 beautify_code = jsbeautifier.beautify(obfuscate_js) print(beautify_code)

核心原理

基于语法树重构代码缩进、换行、语句分割，还原代码可读性，为后续逻辑分析提供基础。

三、轻量逆向：MD5/SHA 参数签名破解

3.1 场景说明

大量中小型站点采用 MD5 拼接参数生成 sign 签名，逻辑简单、逆向成本低，是入门级 JS 逆向场景。前端逻辑：拼接时间戳、请求参数、固定密钥→MD5 加密→生成 sign 字段。

3.2 前端示例加密 JS

javascript

运行

// 前端加密核心函数 function getSign(key, timestamp, word){ let str = word + timestamp + key; return md5(str).toUpperCase(); }

3.3 方案一：Python 直接复现算法

无需调用 JS，使用 Python 内置 hashlib 复现 MD5 逻辑，效率更高。

python

运行

import hashlib import time def md5_encrypt(content): """MD5加密工具函数""" md5_obj = hashlib.md5(content.encode("utf-8")) return md5_obj.hexdigest().upper() def get_request_sign(word, secret_key="web2026"): """复现前端签名算法""" timestamp = str(int(time.time())) concat_str = word + timestamp + secret_key sign = md5_encrypt(concat_str) return { "word": word, "timestamp": timestamp, "sign": sign } if __name__ == "__main__": params = get_request_sign("python爬虫") print(params)

核心原理

完全对齐前端字符串拼接顺序、编码格式、大小写转换规则；
时间戳、随机数等动态参数同步生成，保证签名一致性；
纯 Python 实现，无第三方 JS 环境依赖，运行效率高。

3.4 方案二：PyExecJS 调用原生 JS 代码

复杂算法无法快速复现时，直接扣取前端 JS 代码，Python 调用执行。

python

运行

import execjs import time # 扣取前端完整加密JS js_code = """ function getSign(key, timestamp, word){ let str = word + timestamp + key; return md5(str).toUpperCase(); } // 补充浏览器内置md5方法 function md5(string) { const crypto = require('crypto'); return crypto.createHash('md5').update(string).digest('hex'); } """ def js_get_sign(word): ctx = execjs.compile(js_code) timestamp = str(int(time.time())) sign = ctx.call("getSign", "web2026", timestamp, word) return sign if __name__ == "__main__": print(js_get_sign("测试数据"))

核心原理

补全浏览器缺失的依赖方法（如 md5、crypto），保证 JS 独立运行；
原汁原味执行前端加密逻辑，杜绝算法复现误差；
适合逻辑复杂、嵌套函数多的加密场景。

四、进阶逆向：AES 对称加密载荷破解

4.1 AES 加密应用场景

高风控站点普遍使用 AES 对 POST 请求体、敏感数据进行整体加密，前端明文→AES 加密→密文提交，后端解密校验。AES 常见模式分为 ECB、CBC，需要密钥 key 与偏移量 iv。

4.2 前端 AES 加密示例 JS

javascript

运行

// 前端AES-CBC加密 function aesEncrypt(data, key, iv){ const cipher = crypto.createCipheriv('aes-128-cbc', key, iv); let res = cipher.update(data, 'utf8', 'hex'); res += cipher.final('hex'); return res; }

4.3 Python AES 算法同源复现

使用 cryptography 库实现 AES-CBC 加密，完全对齐前端参数。

python

运行

from cryptography.hazmat.primitives.ciphers import Cipher, algorithms, modes from cryptography.hazmat.backends import default_backend import base64 def aes_cbc_encrypt(plain_text, key, iv): """ 复刻前端AES-CBC加密 :param plain_text: 明文数据 :param key: 加密密钥 :param iv: 偏移量 :return: 十六进制密文 """ backend = default_backend() cipher = Cipher(algorithms.AES(key.encode("utf-8")), modes.CBC(iv.encode("utf-8")), backend=backend) encryptor = cipher.encryptor() # 补齐16位分组填充，对齐前端规则 pad_len = 16 - len(plain_text.encode("utf-8")) % 16 plain_text = plain_text + chr(pad_len) * pad_len encrypted = encryptor.update(plain_text.encode("utf-8")) + encryptor.finalize() return encrypted.hex() if __name__ == "__main__": # 与前端一致的key、iv key = "1234567890123456" iv = "1234567890123456" data = '{"name":"test","id":1001}' cipher_data = aes_cbc_encrypt(data, key, iv) print("AES加密密文：", cipher_data)

核心原理

严格对齐加密模式（CBC/ECB）、密钥长度、编码格式；
补齐 PK7 填充规则，前端加密普遍存在分组位补齐；
输出格式统一为 hex/base64，与接口要求保持一致。

五、高阶逆向：控制流混淆与字符串加密还原

5.1 控制流平坦化混淆特征

高强度混淆代码会大量使用 switch、三元运算、随机分支打乱执行顺序，示例：

javascript

运行

var _0x12ed=['encrypt','sign','timestamp'];function _0x3c(a){return _0x12ed[a]}

此类代码通过数组索引隐藏真实字符串，需要静态还原映射关系。

5.2 字符串加密还原技巧

提取全局编码数组，建立索引与明文映射表；
批量替换乱码变量为语义化名称；
移除无效冗余分支，保留核心加密逻辑；
本地分段调试，逐行验证函数输出结果。

5.3 虚拟机 JS 对抗简述

部分高端站点采用 VMP 虚拟机加密，自定义指令集，常规扣代码失效，解决方案：

保留完整运行上下文，使用 Playwright 加载页面原生 JS 环境执行加密函数；
拦截页面加密方法返回值，直接获取浏览器生成的合法参数；
采用中间人代理，劫持正常浏览器请求参数，实现参数复用。

六、混合调用：浏览器环境 JS 注入取值

6.1 场景优势

面对无法剥离的浏览器全局环境依赖（window、navigator、cookie 依赖加密），使用自动化浏览器直接执行加密函数，是最高效的绕过方案。

6.2 Playwright 注入 JS 获取加密参数

python

运行

from playwright.sync_api import sync_playwright def get_encryption_param(): with sync_playwright() as p: browser = p.chromium.launch(headless=True) page = browser.new_page() page.goto("https://target.com") # 注入前端加密函数，直接调用 js_script = """ function getRealSign(){ let time = Date.now(); return window.encrypt(time, "secret2026"); } getRealSign(); """ sign_result = page.evaluate(js_script) print("浏览器原生生成签名：", sign_result) browser.close() return sign_result