当前位置：首页 > news >正文

1688爬虫避坑：无痕浏览抓HTML+XPath二次拼接提取数据实战

news 2026/5/12 0:11:48

1688爬虫避坑：无痕浏览抓HTML+XPath二次拼接提取数据实战

前言

在爬取1688这类电商平台数据时，很多小伙伴都会遇到一个问题：正常浏览器访问能看到页面内容，但是通过代码请求拿到的HTML源码缺失，甚至拿不到有效响应，只有切换无痕浏览才能获取到完整的HTML。本文就针对这个问题，详细拆解无痕浏览抓包、XPath二次拼接提取拆分数据的全流程，纯学习分享，仅供个人学习研究使用，严禁用于任何商业盈利、非法爬取，务必遵守《网络安全法》等相关法律法规，尊重平台数据版权。

一、问题场景分析

在爬取1688首页商品数据时，遇到两个核心问题：

普通浏览访问无有效HTML响应：平台会通过Cookie、会话缓存、反爬校验限制常规请求，直接用代码请求拿不到页面渲染后的完整源码，无痕浏览无缓存、无旧Cookie干扰，反而能获取正常响应。
数据字段拆分拼接：商品价格等字段被拆分成多个span标签存储，直接XPath提取只能拿到部分内容，需要二次XPath提取后拼接，才能得到完整数值。

二、前期准备工作

2.1 环境配置

首先安装所需的依赖库，执行以下命令：

pip install requests pip install lxml

2.2 无痕浏览抓包获取请求头

打开浏览器（以Edge/Chrome为例），按下Ctrl+Shift+N开启无痕浏览模式；
在无痕窗口中访问目标1688页面，按下F12打开开发者工具，切换到Network面板；
刷新页面，找到对应的页面请求，复制Request Headers里的请求头和Cookie；
无痕浏览不会保留历史缓存和旧Cookie，能拿到最纯净的请求参数，避开平台的会话反爬。

三、核心代码实现（含完整步骤）

3.1 导入依赖库

frompprintimportpprintimportrequestsfromlxmlimportetree

3.2 配置请求头和Cookie

将无痕浏览抓到的Cookie和Headers粘贴进来，模拟无痕浏览的请求环境：

cookies={'leftMenuLastMode':'COLLAPSE','cna':'sBhMIkK15j8CAW8c+e1dviks','mtop_partitioned_detect':'1','_m_h5_tk':'cb8dd60ea288748d56c672d578bb41e7_1774536760651','_m_h5_tk_enc':'35a719c0e6d788c851c45e2b66f43e5e',# 其余抓包到的Cookie字段}headers={'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8','accept-language':'zh-CN,zh;q=0.9','cache-control':'max-age=0','referer':'https://www.bing.com/','user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/146.0.0.0 Safari/537.36',}

3.3 发送请求获取HTML源码

通过requests发送请求，承接无痕浏览的请求参数，获取页面HTML：

# 请求页面response=requests.get('https://www.1688.com/',cookies=cookies,headers=headers)html=etree.HTML(response.txt)# 获取所有商品卡片cards=html.xpath("//div[contains(@class, 'offer-card-container')]")print(f"✅ 成功抓取到商品总数：{len(cards)}")print("-"*80)

3.4 跳过前10条数据

按照需求，忽略前10个商品，从第11条开始遍历提取：

# 跳过前10个商品，从第11个开始遍历forindex,cardinenumerate(cards[10:],11):# 提取商品名称name=card.xpath(".//span[@class='offer-title']/text()")name=name[0].strip()ifnameelse"无"# 提取商品图片链接img_url=card.xpath(".//img[@class='main-img']/@src")img_url=img_url[0].strip()ifimg_urlelse"无"

3.5 XPath二次拼接提取价格

1688的商品价格被拆分成多个span标签，直接提取不完整，需要先定位价格容器，再分别提取每个子标签内容，最后拼接成完整价格：

# 价格拆分+XPath二次提取拼接price_wrap=card.xpath(".//div[@class='price-wrap']")ifprice_wrap:# 依次提取拆分的价格字段s1=price_wrap[0].xpath("(.//span[1])").strip()s2=price_wrap[0].xpath("string(.//span[2])").strip()s3=price_wrap[0].xpath("string(.//span[3])").strip()# 拼接完整价格price=s2+s3else:price="无"

3.6 提取其余字段+厂家名称

继续提取销量、服务信息，通过层级XPath定位厂家店铺名称：

# 提取商品销量sales=card.xpath(".//div[contains(@class,'price-other-item')]/text()")sales=sales[0].strip()ifsaleselse"无"# 提取服务标签service_items=card.xpath(".//div[@class='service-item']/div/text()")collect=service_items[0].strip()iflen(service_items)>0else"无"peer_buy=service_items[1].strip()iflen(service_items)>1else"无"# 提取生产厂家名称factory=card.xpath("string(.//a[contains(@class,'company-wrap')]//span[@class='company-name'])").strip()factory=factoryiffactoryelse"无"

3.7 数据打印输出

# 格式化打印数据print(f"📌 第{index}个商品")print(f"产品名称：{name}")print(f"商品图片：{img_url}")print(f"销售价格：{price}")print(f"商品销量：{sales}")print(f"收藏人数：{collect}")print(f"同行采购：{peer_buy}")print(f"生产厂家：{factory}")print("-"*80)