当前位置：首页 > news >正文

Python爬虫实战：手把手教你用requests+lxml批量下载mzsock网站图片（附完整源码）

news 2026/6/21 1:23:01

Python爬虫实战：从零开始构建图片采集系统

1. 环境准备与工具选择

在开始爬虫项目之前，我们需要搭建合适的工作环境。Python作为爬虫开发的首选语言，拥有丰富的生态系统和易用的语法特性。这里推荐使用Python 3.8+版本，它能提供更好的异步支持和性能优化。

必备工具包安装：

pip install requests lxml pillow

为什么选择requests+lxml组合？

requests：比标准库urllib更人性化的HTTP客户端
lxml：解析速度比BeautifulSoup快3-5倍，特别适合结构化数据提取
Pillow：后续可能需要对下载的图片进行格式转换或压缩

开发环境配置建议：

使用VS Code或PyCharm等专业IDE
安装Python扩展插件
配置好代码自动补全和调试功能

注意：不同操作系统下路径处理方式可能不同，建议使用pathlib模块进行跨平台路径操作

2. 网页结构分析与数据定位

现代网站通常采用动态渲染技术，但我们的目标站点仍保持传统HTML结构。打开开发者工具(F12)，可以看到页面由以下几个关键部分组成：

导航栏：包含分页链接
内容区：图片列表以<li>元素组织
页脚：版权信息等

典型XPath选择器示例：

# 获取所有图片条目 li_list = tree.xpath('//section/div[1]/ul/li') # 提取单个图片链接 img_url = li.xpath('./div[1]/a/@href')[0] # 获取图片标题 title = li.xpath('./h3/a/@title')[0]

常见定位问题解决方案：

元素层级变化：使用相对路径而非绝对路径
动态class：改用其他稳定属性定位
懒加载：检查data-src等属性

3. 反爬策略应对方案

网站通常会设置基础防护措施，我们需要模拟正常浏览器行为：

标准请求头配置：

headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)", "Accept-Language": "zh-CN,zh;q=0.9", "Referer": "http://example.com/", "Accept-Encoding": "gzip, deflate" }

流量控制策略：

随机延迟：time.sleep(random.uniform(0.5, 1.5))
代理IP轮换：使用免费代理池服务
请求间隔：控制在2-3秒/次

重要：遵守robots.txt规则，设置合理的爬取频率，避免对目标服务器造成负担

4. 完整爬虫系统实现

下面是一个增强版的爬虫实现，包含错误处理和日志记录：

import requests from lxml import etree import re import os import time import random from pathlib import Path class ImageSpider: def __init__(self): self.base_url = "http://example.com/mv/" self.output_dir = Path("./downloads") self.headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)" } self.setup_dirs() def setup_dirs(self): self.output_dir.mkdir(exist_ok=True) def fetch_page(self, url): try: resp = requests.get(url, headers=self.headers, timeout=10) resp.raise_for_status() return resp.text except Exception as e: print(f"请求失败: {url}, 错误: {e}") return None def parse_list_page(self, html): tree = etree.HTML(html) items = [] for li in tree.xpath('//li[@class="item"]'): item = { "title": li.xpath('.//h3/a/@title')[0], "url": li.xpath('.//div/a/@href')[0] } items.append(item) return items def download_image(self, url, save_path): try: resp = requests.get(url, stream=True, timeout=15) with open(save_path, 'wb') as f: for chunk in resp.iter_content(1024): f.write(chunk) print(f"下载成功: {save_path}") return True except Exception as e: print(f"下载失败: {url}, 错误: {e}") return False def run(self, pages=5): for page in range(1, pages+1): url = f"{self.base_url}page/{page}" if page > 1 else self.base_url html = self.fetch_page(url) if not html: continue items = self.parse_list_page(html) for item in items: self.process_item(item) time.sleep(random.uniform(0.5, 1.5)) def process_item(self, item): detail_html = self.fetch_page(item['url']) if not detail_html: return tree = etree.HTML(detail_html) images = tree.xpath('//p[@class="img_jz"]/a/img/@src') for idx, img_url in enumerate(images, 1): ext = img_url.split('.')[-1].lower() if ext not in ['jpg', 'jpeg', 'png', 'gif']: ext = 'jpg' filename = f"{item['title']}_{idx}.{ext}" save_path = self.output_dir / filename self.download_image(img_url, save_path) time.sleep(0.3) if __name__ == "__main__": spider = ImageSpider() spider.run()

5. 高级技巧与优化建议

5.1 性能优化方案

多线程下载实现：

from concurrent.futures import ThreadPoolExecutor def batch_download(urls): with ThreadPoolExecutor(max_workers=4) as executor: executor.map(download_image, urls)

存储优化策略：

使用哈希值命名避免重复下载
实现断点续传功能
添加图片MD5校验

5.2 异常处理机制

常见异常类型及处理方式：

异常类型	触发场景	解决方案
ConnectionError	网络连接问题	重试机制+代理切换
Timeout	服务器响应慢	增加超时阈值
404/403	页面不存在/禁止访问	跳过当前任务
XPathError	页面结构变化	更新选择器