当前位置：首页 > news >正文

寒假学习笔记2.10

news 2026/7/7 7:55:35

一、实践练习
练习1：使用Selenium模拟登录豆瓣并获取个人主页信息
python
from selenium import webdriver
from selenium.webdriver.common.by import By
import time

def douban_login(username, password):
driver = webdriver.Chrome()
driver.get("https://accounts.douban.com/passport/login")

# 切换到密码登录
time.sleep(2)
driver.find_element(By.CSS_SELECTOR, ".account-tab-account").click()# 输入账号密码
driver.find_element(By.ID, "username").send_keys(username)
driver.find_element(By.ID, "password").send_keys(password)# 点击登录
driver.find_element(By.CSS_SELECTOR, ".btn-account").click()
time.sleep(5)# 保存cookie
cookies = driver.get_cookies()
print("登录成功，cookies已获取")# 访问个人主页
driver.get("https://www.douban.com/people/xxx/")
html = driver.page_source
driver.quit()
return html

调用（请使用自己的账号密码）

douban_login("your_username", "your_password")

练习2：Scrapy爬取豆瓣电影Top250（使用Item Pipeline保存到JSON）
创建项目：scrapy startproject douban

定义Item（items.py）：

python
import scrapy

class DoubanMovieItem(scrapy.Item):
title = scrapy.Field()
rating = scrapy.Field()
quote = scrapy.Field()
year = scrapy.Field()
编写爬虫（spiders/top250.py）：

python
import scrapy
from douban.items import DoubanMovieItem

class Top250Spider(scrapy.Spider):
name = "top250"
allowed_domains = ["movie.douban.com"]
start_urls = [f"https://movie.douban.com/top250?start={i*25}" for i in range(10)]

def parse(self, response):for movie in response.css('.item'):item = DoubanMovieItem()item['title'] = movie.css('.title::text').get()item['rating'] = movie.css('.rating_num::text').get()item['quote'] = movie.css('.inq::text').get()info = movie.css('.bd p::text').getall()# 提取年份等yield item

配置Pipeline（pipelines.py）：

python
import json

class DoubanPipeline:
def open_spider(self, spider):
self.file = open('movies.json', 'w', encoding='utf-8')

def close_spider(self, spider):self.file.close()def process_item(self, item, spider):line = json.dumps(dict(item), ensure_ascii=False) + '\n'self.file.write(line)return item

在settings.py中启用Pipeline：

python
ITEM_PIPELINES = {
'douban.pipelines.DoubanPipeline': 300,
}
运行：scrapy crawl top250

练习3：使用代理IP池和User-Agent轮换
在Scrapy中集成中间件实现代理和UA轮换。

python

middlewares.py

import random
from fake_useragent import UserAgent

class RandomUserAgentMiddleware:
def init(self):
self.ua = UserAgent()

def process_request(self, request, spider):request.headers['User-Agent'] = self.ua.random

class ProxyMiddleware:
def process_request(self, request, spider):
proxies = ['http://123.123.123.123:8080', 'http://111.111.111.111:8888']
proxy = random.choice(proxies)
request.meta['proxy'] = proxy
在settings.py中启用中间件：

python
DOWNLOADER_MIDDLEWARES = {
'douban.middlewares.RandomUserAgentMiddleware': 400,
'douban.middlewares.ProxyMiddleware': 410,
}
二、遇到的问题与解决
问题：Selenium启动浏览器时报错“chromedriver”找不到

解决：下载对应Chrome版本的驱动，并将其所在目录添加到系统PATH，或在代码中显式指定路径。

问题：页面元素定位不到（NoSuchElementException）

解决：检查是否在iframe中（需先switch_to.frame），或增加等待时间，或使用更稳定的CSS/XPath。

问题：Scrapy爬取速度过快被ban

解决：在settings中设置DOWNLOAD_DELAY，启用RANDOMIZE_DOWNLOAD_DELAY，使用代理。

问题：Scrapy的parse方法中yield多个Request导致数据重复

解决：使用dont_filter=True避免去重，或调整去重策略。

问题：JavaScript动态内容在Scrapy中无法直接获取

解决：可以结合Selenium（但效率低），或分析Ajax接口直接请求JSON数据，或使用Splash等渲染服务。

三、学习总结
Selenium是处理动态页面的利器，但速度较慢，适合中小规模爬虫或需要交互的场景

反爬虫策略需要综合使用：User-Agent轮换、代理IP、请求延迟、Cookie模拟等

Scrapy框架提供了强大的异步爬取能力和模块化设计，适合大规模数据采集