当前位置：首页 > news >正文

寒假学习笔记2.15

news 2026/3/27 4:19:34

一、学习目标
掌握使用Docker容器化爬虫项目及其依赖环境

学习使用Scrapyd部署和管理Scrapy爬虫

了解Gerapy作为Scrapyd的图形化管理工具

能够配置定时任务（cron / APScheduler）自动运行爬虫

熟悉爬虫日志管理与简单监控

构建一个可部署、可调度、可监控的爬虫系统

二、学习内容

Docker容器化爬虫
Docker可以将爬虫及其依赖打包成镜像，保证环境一致性，便于部署和扩展。

1.1 编写Dockerfile
以豆瓣电影爬虫为例，创建Dockerfile：

dockerfile

基础镜像

FROM python:3.9-slim

设置工作目录

WORKDIR /app

安装系统依赖（如有需要）

RUN apt-get update && apt-get install -y --no-install-recommends
gcc
&& rm -rf /var/lib/apt/lists/*

复制依赖文件

COPY requirements.txt .

安装Python依赖

RUN pip install --no-cache-dir -r requirements.txt

复制项目代码

COPY . .

默认命令（可以被覆盖）

CMD ["scrapy", "crawl", "douban"]
1.2 构建与运行
bash

构建镜像

docker build -t douban-spider .

运行容器

docker run --rm douban-spider

如果需要传入参数，可以覆盖CMD

docker run --rm douban-spider scrapy crawl douban -o /data/output.json
1.3 使用docker-compose编排多服务
如果爬虫依赖数据库（如MySQL、Redis），可以使用docker-compose：

yaml
version: '3'
services:
redis:
image: redis:alpine
ports:
- "6379:6379"
spider:
build: .
depends_on:
- redis
environment:
- REDIS_HOST=redis
command: scrapy crawl douban_redis
2. Scrapyd部署爬虫
Scrapyd是一个部署和运行Scrapy爬虫的服务，提供HTTP API。

2.1 安装与启动Scrapyd
bash
pip install scrapyd
scrapyd # 启动服务，默认监听6800端口
2.2 部署爬虫到Scrapyd
在爬虫项目目录下创建setup.py（如果还没有）：

python
from setuptools import setup, find_packages

setup(
name='douban_spider',
version='1.0',
packages=find_packages(),
entry_points={'scrapy': ['settings = douban.settings']},
)
使用scrapyd-deploy工具部署（需要安装scrapyd-client）：

bash
pip install scrapyd-client
scrapyd-deploy target -p project_name
其中target在scrapy.cfg中定义：

ini
[deploy]
url = http://localhost:6800/
project = douban
2.3 通过API控制爬虫
列出项目：curl http://localhost:6800/listprojects.json

列出爬虫：curl http://localhost:6800/listspiders.json?project=douban

启动爬虫：curl http://localhost:6800/schedule.json -d project=douban -d spider=douban

取消任务：curl http://localhost:6800/cancel.json -d project=douban -d job=xxxxx

Gerapy可视化管理
Gerapy是基于Scrapyd的图形化管理工具，可以方便地管理多台Scrapyd服务器和爬虫。

3.1 安装与初始化
bash
pip install gerapy
gerapy init # 创建gerapy项目目录
cd gerapy
gerapy migrate # 初始化数据库
gerapy runserver 0.0.0.0:8000 # 启动服务
3.2 配置与使用
在Web界面中添加Scrapyd服务器（主机、端口）

上传爬虫项目（打包为egg文件）

通过界面调度爬虫、查看任务状态

定时任务调度
4.1 使用系统cron（Linux）
编辑crontab：crontab -e

text
0 2 * * * cd /path/to/project && scrapy crawl douban >> /var/log/spider.log 2>&1
4.2 使用APScheduler（Python调度库）
可以编写一个调度脚本，与Scrapyd API结合：

python
from apscheduler.schedulers.blocking import BlockingScheduler
import requests

def job():
requests.post('http://localhost:6800/schedule.json',
data={'project': 'douban', 'spider': 'douban'})

scheduler = BlockingScheduler()
scheduler.add_job(job, 'cron', hour=2, minute=0)
scheduler.start()
4.3 使用Airflow（适合复杂工作流）
Airflow是更强大的工作流调度平台，但学习成本较高，可作为扩展了解。