当前位置：首页 > news >正文

超简单小白爬虫急速五分钟上手教程

news 2026/6/11 23:00:15

1. 思路：

1.首先明确你要爬什么

这次举例电影榜单top100，豆瓣最近不知道是不是服务器崩了一直打不开

内容无非是：电影名称上映时间评分 --->这就是我们需要爬取的具体信息

2.写脚本

2. 知识点：

1.只要会python里面的fp文件打开写入，for循环

2.csv（直接excel表格就可以打开）

3.XPath路径语法

理解：

1.`.`(点)

含义：表示当前节点位置，也就是dd内。

2.`//`(双斜杠)

含义：表示不限层级的搜索，也就是不管嵌套

3.`p[@class="name"]`

含义：找到一个class属性等于"name"的<p>标签。

p是标签名。

[]里面是过滤条件。

@符号表示是“属性”。

4.`/a`(单斜杠 + a)

含义：直接子级，也就是找到那个标签下的a。

5.`/text()`

含义：取文本内容，也就是夹在中间的那些文字（电影名）。

连起来：

. // p[@class="name"] / a / text()

3. 具体过程

以猫眼电影举例：https://www.maoyan.com/board/4?offset=10

1.导包

import csv import requests # 用于发送网络请求 from lxml import etree # lxml第三方网页解析库

2.拿到html网页所有信息

我们爬的是一个网页，那么怎么让python拿到所需网页的具体内容

那就得用到request包了，负责响应我们的请求

具体代码

url = f"https://www.maoyan.com/board/4?offset={x}" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36", #为了伪装人类 "Cookie": "....", #这里的cookie放你自己的，那个f12里面的network就可以查看 "Referer": "https://www.maoyan.com/board/4", #可选，为了伪装人类 "Host": "www.maoyan.com", #可选，为了伪装人类 } resp = requests.get(url, headers=headers, timeout=10) html = resp.text  parse = etree.HTML(html) //lxml库中的etree可以解析网页拿到html代码

3.筛选拿到的html信息，为了找到我们所需的电影具体信息

打开url按f12，进入查看器，找到我们所需要的电影名称，上映时间，评分

发现dd（Definition Description）容器存着每一部电影

打开看细节

以电影名举例：（这里使用本人自创简写路径格式）：

dd/class="name"的p/a

这个东西要是拿到了就拿到了电影标题，转换成

. // p[@class="name"] / a / text()

具体代码：

all_dd = parse.xpath("//dd")  for dd in all_dd: name = dd.xpath('.//p[@class="name"]/a/text()')[0].strip() rtime = dd.xpath('.//p[@class="releasetime"]/text()')[0].strip() integ = dd.xpath('.//i[@class="integer"]/text()')[0].strip() fra = dd.xpath('.//i[@class="fraction"]/text()')[0].strip() score = integ + fra  movie_info = { "name": name, "time": rtime, "score": score, } print(movie_info)

4.综合代码

import csv import requests # 用于发送网络请求 from lxml import etree # lxml第三方网页解析库   for x in range(0, 100, 10): url = f"https://www.maoyan.com/board/4?offset={x}" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36", "Cookie": "...", "Referer": "https://www.maoyan.com/board/4", "Host": "www.maoyan.com", } resp = requests.get(url, headers=headers, timeout=10) html = resp.text parse = etree.HTML(html) all_dd = parse.xpath("//dd") for dd in all_dd: name = dd.xpath('.//p[@class="name"]/a/text()')[0].strip() rtime = dd.xpath('.//p[@class="releasetime"]/text()')[0].strip() integ = dd.xpath('.//i[@class="integer"]/text()')[0].strip() fra = dd.xpath('.//i[@class="fraction"]/text()')[0].strip() score = integ + fra  movie_info = { "name": name, "time": rtime, "score": score, } print(movie_info)

5.转换成表格csv

import csv import requests # 用于发送网络请求 from lxml import etree # lxml第三方网页解析库  with open("movie.csv", "w", encoding="utf_8_sig", newline="") as fp: fieldnames = ["name", "time", "score"] writer = csv.DictWriter(fp, fieldnames=fieldnames) writer.writeheader()  for x in range(0,100,10): url = f"https://www.maoyan.com/board/4?offset={x}" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36", "Cookie": "...", "Referer": "https://www.maoyan.com/board/4", "Host": "www.maoyan.com", } resp = requests.get(url,headers=headers,timeout=10) html = resp.text parse = etree.HTML(html) all_dd = parse.xpath('//dd') for dd in all_dd: name = dd.xpath('.//p[@class="name"]/a/text()')[0].strip() rtime = dd.xpath('.//p[@class="releasetime"]/text()')[0].strip() integ = dd.xpath('.//i[@class="integer"]/text()')[0].strip() fra = dd.xpath('.//i[@class="fraction"]/text()')[0].strip() score = integ + fra  movie_info = { "name": name, "time": rtime, "score": score, } writer.writerow(movie_info)

查看全文

http://www.jsqmd.com/news/582592/