当前位置：首页 > news >正文

爬虫基础

news 2026/7/2 21:38:42

好的，我们来系统梳理一下爬虫最核心的基础知识。结合你练习百度翻译的实践，你会更容易理解。

爬虫，本质上是模拟浏览器（客户端）的行为，向服务器（网站）发送请求，然后自动抓取和分析返回数据的程序。

你可以把整个过程想象成一次“点餐-取餐”：

你告诉服务员要吃什么（发送请求）
后厨做好（服务器处理）
服务员把食物端给你（接收响应）
你把食物吃掉，挑出你想吃的部分（解析数据）

下面我们拆解这个流程中的关键知识点。

一、核心流程：Request（请求） → Response（响应）

这是爬虫的基石，一切操作都围绕此展开。

Request（请求）：你的程序（爬虫）向服务器索要数据时发出的“一封信”。这封信里必须包含几个关键信息：
- URL：你想访问哪个地址。比如 https://fanyi.baidu.com/transText。
- Method（请求方法）：主要是 GET 和 POST。你观察得很对：
  - GET：参数（如 ?word=hello）直接挂在 URL 后面，像“明信片”，大家都能看见。用于获取数据。
  - POST：参数（data）放在信的“正文”里，像“信封”，相对隐蔽。用于提交数据（如登录、翻译）。
- Headers（请求头）：这封信的“格式”和“附加信息”，用来告诉服务器一些事。最常见、你必须处理的有：
  - User-Agent：告诉服务器你是什么浏览器（如Chrome）。不加这个，服务器一眼就能认出你是爬虫。
  - Cookie：你的“身份凭证”或“会话状态”。比如登录信息。你练习时复制的那一大串就是它。
  - Referer：告诉服务器你从哪个页面跳转过来的，对于防爬严格的网站很重要。
- Data/Body（请求体）：主要在 POST 请求中使用，就是要提交的数据，比如你想翻译的单词 {“kw”: “spider”}。
Response（响应）：服务器收到请求后，回复给你的“一封信”。
- Status Code（状态码）：最重要的信息之一！告诉你请求结果。
  - 200：成功！这是你最想看到的。
  - 404：你要的页面没找到（URL错了）。
  - 403/418：服务器拒绝你，可能被反爬了。
  - 500：服务器内部出错了。
- Headers（响应头）：服务器返回的“信封信息”，可能包含 Cookie、数据类型等。
- Body（响应体）：这封信最重要的“正文”，也就是你想要的数据。主要有两种：
  - HTML：网页的结构和内容，需要用正则表达式、XPath 或 BeautifulSoup 等工具来“解析”。
  - JSON：一种轻量的数据交换格式，是结构化数据，就像Python里的字典。现代网站（如百度翻译）的接口数据大多是JSON，直接用 json.loads() 解析即可。你练习时在 Preview 标签里看到的就是它。

二、必备工具：浏览器开发者工具（F12）

这是你学习爬虫的“眼睛”和“实验室”，重中之重。你之前找 sug 和 transText 就是在用它。

Network（网络）面板：最核心。记录浏览器发出的所有请求。
- 操作口诀：先打开面板并清空，再操作页面。这样才能捕获到你操作（如输入单词）触发的请求。
- 筛选XHR/Fetch：能过滤出最重要的数据请求（比如返回JSON的翻译接口）。
- 点击某个请求：查看它的 Headers（学请求格式）、Preview/Response（看返回的数据结构）。
Elements（元素）面板：主要用于分析静态网页结构，当你需要从HTML里提取数据时使用。

三、核心Python库

发起请求
- urllib：Python自带库，你正在使用的。比较底层，代码稍繁琐，但有助于理解原理。
- requests：第三方库，极度推荐初学者使用。语法简洁直观，是行业标准。你可以先用 requests 快速实现功能，理解了再用 urllib 加深印象。
解析数据
- json：Python自带库。用于解析接口返回的 JSON 数据。这是你当前练习的重点。
- BeautifulSoup / lxml：用于解析复杂的 HTML 网页，从中提取标签内的文本、链接等。

四、核心思路与伦理

模仿浏览器，而非创造请求：你的代码不是在“发明”一个请求，而是在“模仿”浏览器发出的请求。所以，你的代码里的URL、Headers、Data，都应该尽量和浏览器里抓到的一模一样。
循序渐进调试：
- 先用最简单代码测试连通性（只发请求，不带参数）。
- 逐步添加必要的Headers（先加 User-Agent）。
- 最后处理复杂的参数和Cookie。
遵守 Robots协议：查看网站的 /robots.txt 文件（如 https://baidu.com/robots.txt），尊重网站规定哪些内容不允许爬取。
友善爬虫：
- 在请求中添加延时（如 time.sleep(1)），避免短时间内高频访问拖垮对方服务器。
- 明确数据的版权和使用范围，不用于非法用途。