当前位置：首页 > news >正文

京东关键词搜索商品列表的Python爬虫实战

news 2026/3/27 10:02:39

京东关键词搜索商品列表 Python 爬虫实战

你想要实现京东关键词搜索商品的爬虫，我会从合规声明、环境准备、页面分析、代码实现、反爬优化五个方面展开，帮助你完成实战项目。

一、前置声明（重要！）

京东拥有商品数据的版权，爬虫仅可用于个人学习、研究，禁止用于商业用途、批量爬取造成京东服务器压力。
遵守京东《用户协议》和robots.txt协议（京东https://www.jd.com/robots.txt明确限制了部分爬虫行为）。
本实战仅演示基础爬虫思路，爬取频率极低，避免对平台造成影响。

二、环境准备

需要安装 3 个核心 Python 库，打开终端执行以下命令：

bash

运行

pip install requests beautifulsoup4 fake-useragent

requests：发送 HTTP 网络请求，获取页面数据。
beautifulsoup4：解析 HTML 页面，提取目标商品信息。
fake-useragent：生成随机 User-Agent，规避简单的反爬检测。

三、京东搜索页面分析

搜索 URL 构造：打开京东官网，搜索关键词（例如 “Python 书籍”），观察浏览器地址栏，得到搜索 URL 格式：
plaintext
```
https://search.jd.com/Search?keyword=关键词&enc=utf8&page=页码
```
- keyword：需要搜索的商品关键词（需 URL 编码，requests会自动处理）。
- page：商品列表页码（京东每页展示 60 件商品，页码为 1、3、5... 奇数递增，对应第 1、2、3... 页）。
商品标签定位：京东商品列表的核心 HTML 标签为<li class="gl-item">，每个该标签对应一件商品，包含商品 ID、名称、价格、链接、店铺等信息。
价格特殊说明：京东商品价格采用动态加载（JS 渲染），直接爬取静态 HTML 无法获取准确价格，需单独请求价格接口或后续通过 JS 解析补充，本实战先提取静态页面可获取的核心信息，再补充价格接口优化方案。

四、完整代码实现（基础版）

版本 1：基础爬虫（提取商品核心信息）

实现功能：指定关键词，爬取第 1 页商品的商品 ID、商品名称、商品链接、店铺名称（价格后续优化）。

python

运行

# 导入所需模块 import requests from bs4 import BeautifulSoup from fake_useragent import UserAgent import time def get_jd_goods(keyword, page=1): """ 爬取京东关键词搜索商品列表 :param keyword: 搜索关键词 :param page: 页码（默认第1页） :return: 商品信息列表 """ # 1. 构造请求参数 url = "https://search.jd.com/Search" params = { "keyword": keyword, "enc": "utf8", "page": page, # 京东页码为奇数，1=第1页，3=第2页，以此类推 "wq": keyword # 补充参数，提高请求成功率 } # 2. 构造请求头（规避简单反爬） ua = UserAgent() headers = { "User-Agent": ua.random, # 随机生成User-Agent "Referer": "https://www.jd.com/", # 来源页，模拟浏览器跳转 "Accept-Language": "zh-CN,zh;q=0.9", # 接受语言 "Connection": "keep-alive" } try: # 3. 发送GET请求（设置超时，避免卡死；禁止重定向，提高效率） response = requests.get( url=url, params=params, headers=headers, timeout=15, allow_redirects=False ) response.raise_for_status() # 若请求状态码不是200，抛出异常 response.encoding = "utf-8" # 指定编码，避免中文乱码 # 4. 解析HTML页面，提取商品信息 soup = BeautifulSoup(response.text, "lxml") # lxml解析器，高效快速 goods_list = [] # 存储最终商品信息 # 定位所有商品标签 <li class="gl-item"> goods_items = soup.find_all("li", class_="gl-item") for item in goods_items: # 提取商品ID goods_id = item.get("data-sku", "未知ID") # 提取商品名称 goods_name_tag = item.find("div", class_="p-name").find("em") goods_name = goods_name_tag.get_text(strip=True) if goods_name_tag else "未知名称" # 提取商品链接 goods_href_tag = item.find("a", class_="p-img") goods_href = "https:" + goods_href_tag.get("href", "") if goods_href_tag else "未知链接" # 提取店铺名称 shop_name_tag = item.find("div", class_="p-shop").find("a") shop_name = shop_name_tag.get_text(strip=True) if shop_name_tag else "未知店铺" # 组装商品信息 goods_info = { "商品ID": goods_id, "商品名称": goods_name, "商品链接": goods_href, "店铺名称": shop_name } goods_list.append(goods_info) # 打印单条商品信息（实时查看进度） print(f"已提取商品：{goods_name[:30]}...") # 5. 模拟人类操作，添加延时（核心反爬手段之一） time.sleep(2) return goods_list except requests.exceptions.RequestException as e: print(f"请求失败：{e}") return [] def save_goods_to_txt(goods_list, keyword): """ 将商品信息保存到本地TXT文件 :param goods_list: 商品信息列表 :param keyword: 搜索关键词（用于文件名） """ if not goods_list: print("无商品信息可保存") return filename = f"京东_{keyword}_商品列表.txt" with open(filename, "w", encoding="utf-8") as f: f.write(f"京东关键词「{keyword}」商品搜索结果\n") f.write("-" * 100 + "\n") for index, goods in enumerate(goods_list, 1): f.write(f"第{index}件商品\n") f.write(f"商品ID：{goods['商品ID']}\n") f.write(f"商品名称：{goods['商品名称']}\n") f.write(f"商品链接：{goods['商品链接']}\n") f.write(f"店铺名称：{goods['店铺名称']}\n") f.write("-" * 100 + "\n") print(f"商品信息已成功保存到：{filename}") # 主函数调用 if __name__ == "__main__": target_keyword = "Python书籍" # 自定义搜索关键词 target_page = 1 # 自定义页码（奇数） # 爬取商品信息 jd_goods = get_jd_goods(keyword=target_keyword, page=target_page) # 保存到本地 if jd_goods: save_goods_to_txt(goods_list=jd_goods, keyword=target_keyword) else: print("未爬取到任何商品信息")

版本 2：优化版（补充准确价格获取）

由于京东静态页面价格为空，需单独请求价格接口获取准确价格，优化后的核心代码如下（仅修改价格提取部分）：

python

运行

# 新增：获取商品准确价格的函数 def get_goods_price(goods_id): """ 调用京东价格接口，获取商品准确价格 :param goods_id: 商品ID（data-sku） :return: 商品价格 """ price_url = f"https://p.3.cn/prices/mgets" params = { "skuIds": f"J_{goods_id}", # 价格接口需要J_前缀+商品ID "type": "1" } headers = { "User-Agent": UserAgent().random, "Referer": "https://search.jd.com/" } try: response = requests.get(price_url, params=params, headers=headers, timeout=10) response.raise_for_status() price_data = response.json() return price_data[0].get("p", "未知价格") if price_data else "未知价格" except Exception as e: print(f"获取商品{goods_id}价格失败：{e}") return "未知价格" # 修改解析部分，添加价格获取 # 在for item in goods_items: 循环中，添加： goods_price = get_goods_price(goods_id) # 然后在goods_info中补充： "商品价格": f"{goods_price} 元"

五、反爬策略与注意事项

1. 核心反爬应对措施

随机 User-Agent：使用fake-useragent生成不同浏览器的 UA，避免固定 UA 被识别为爬虫。
请求延时：通过time.sleep(2)添加 2 秒延时，模拟人类浏览节奏，避免高频请求。
完整请求头：补充Referer、Accept-Language等字段，让请求更接近浏览器行为。
避免重定向：设置allow_redirects=False，防止被京东重定向到验证页面。
分页爬取限制：若需爬取多页，页码递增间隔≥5 秒，且总页数不超过 5 页（仅用于学习）。

2. 常见问题与解决方案

问题 1：中文乱码。解决方案：指定response.encoding = "utf-8"，保存文件时指定encoding="utf-8"。
问题 2：返回空商品列表。解决方案：检查页码是否为奇数、请求头是否完整、是否被京东限制（可更换关键词或重启网络）。
问题 3：价格接口返回空值。解决方案：增加价格接口请求延时、更换 UA，部分商品需登录后才能获取价格（进阶需求可使用requests.Session()保持登录状态）。