第 20 篇:会话维持(Session)—— 爬虫的“身份系统“
一、为什么 Session 是爬虫的"命门"?
很多爬虫教程告诉你"用 requests.Session() 就好",但真实项目远不止于此:
- ❌ 跨域登录怎么办?Cookie 丢了
- ❌ Session 存哪里?重启就失效
- ❌ 多个账号怎么管理?互相串了
- ❌ Session 怎么保活?30 分钟就过期
- ❌ 多机协作怎么共享 Session?
本篇带你从入门到生产级,彻底搞懂 Session。
二、Session 内部原理深度剖析
2.1 Session 的 7 大组件
requests.Session ├── headers (dict) # 默认请求头 ├── cookies (RequestsCookieJar) # Cookie 存储 ├── auth (tuple/HTTPAuth) # 认证信息 ├── proxies (dict) # 代理 ├── params (dict) # 默认参数 ├── hooks (dict) # 事件钩子 ├── stream (bool) # 流式响应 ├── verify (bool)