当前位置：首页 > news >正文

3.20爬虫基础速看

news 2026/5/11 20:57:58

request库

post 方法在提请求前要提交数据，get方法不用。

post 提交的方法有时候需做数据格式转换，例如 json.dump(data, fp, separators=(',', ':'))。

写法什么的就略过不讲。post方法传payload的时候，载荷用参数json，表单用get。

证书校验过不去的时候，在请求的时候，加参数，verify = false。

使用session 请求，可以避免重复发送cookie。

数据提取，

可以把数据转成json，通过读取字典和列表的数据将所需数据保存下来。

xpath，根据html结构提取html里的信息。

语法	说明
`//`	从任意位置查找（全局搜索）
`/`	从根节点 / 当前节点的直接子节点查找
`.`	当前节点
`..`	父节点
`*`	匹配任意节点

from lxml import etree text = """ <div> <ul> <li class="item-1"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-inactive"><a href="link3.html">third item</a></li> <li class="item-1"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a> </ul> </div> """ # 1. 需要将html格式代码转为python可以认识的对象 tree = etree.HTML(text) # print(tree) # 2. 提取符合条件的数据 li_a_link = tree.xpath("//li[@class='item-1'/a/@href]") li_a_link = tree.xpath("//li[@class='item-1'/a/text()]")

一般html 会包含很多数据，有很多标签.常用方法可以是通过路径去提取。

from lxml import etree html = """ <div class="container"> <div class="item"> <h3 class="title">华为手机</h3> <p class="price">3999元</p> <a href="/detail/123.html">查看详情</a> </div> <div class="item"> <h3 class="title">小米耳机</h3> <p class="price">299元</p> <a href="/detail/456.html">查看详情</a> </div> </div> """ # 把 HTML 转成可解析对象 tree = etree.HTML(html) # ============================================= # 【最常用方法 1】获取所有商品名称 # ============================================= titles = tree.xpath('//div[@class="item"]/h3/text()') print("商品名称：", titles) # 输出：['华为手机', '小米耳机'] # ============================================= # 【最常用方法 2】获取所有商品价格 # ============================================= prices = tree.xpath('//div[@class="item"]/p[@class="price"]/text()') print("商品价格：", prices) # 输出：['3999元', '299元'] # ============================================= # 【最常用方法 3】获取所有详情链接 # ============================================= urls = tree.xpath('//div[@class="item"]/a/@href') print("详情链接：", urls) # 输出：['/detail/123.html', '/detail/456.html'] # ============================================= # 【最常用方法 4】循环提取每一个完整商品 # ============================================= print("\n===== 逐个提取商品 =====") items = tree.xpath('//div[@class="item"]') # 先拿到所有商品块 for item in items: # 在当前 item 内部继续提取（相对路径） title = item.xpath('.//h3/text()')[0] price = item.xpath('.//p/text()')[0] url = item.xpath('.//a/@href')[0] print(f"商品：{title} | 价格：{price} | 链接：{url}")

如果想去锻炼自己可以拿豆瓣电影 Top 250这个网址试试手

from lxml import etree import requests url="https://movie.douban.com/top250" headers={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/146.0.0.0 Safari/537.36 Edg/146.0.0.0" } response=requests.get(url,headers=headers) tree = etree.HTML(response.text) content = tree.xpath('//div[@class="bd"]/p/text() | //span[@class="title"]/text()') def clean (content): clean_list = [] result = [] for item in content: clean_text = item.replace("\xa0", " ").replace("\n", " ").strip() if clean_text: clean_list.append(clean_text) for i in range(0,len(clean_list)): if clean_list[i].startswith("/"): clean_list[i-1] = clean_list[i-1] + clean_list[i] clean_list[i] = "" clean_list = [item for item in clean_list if item] for i in range(0,len(clean_list)-2,3): title = clean_list[i] d = clean_list[i+1] d2 = d.split("导演:")[1].split("主演:")[0].strip() ind = d.find("主演:") d3 = d[ind+4:].strip() t = clean_list[i+2] result.append({'电影':title,'导演':d2,'主演':d3,'类型':t}) return result clean_list = clean(content) print(clean_list)

贴一个我写的

另外xpath 也是有插件的，比较方便获取xpath XPath Helper_2.0.2_Chrome插件下载_极简插件

用下来效果是这样的

xpath 就学到这里

查看全文

http://www.jsqmd.com/news/511944/