当前位置：首页 > news >正文

Python与爬虫

news 2026/4/15 1:24:19

爬虫是一种Python编写的，按照既定的规则，抓取网站数据的脚本程序，其优点在于，语言简洁，工作效率高，适合重复性工作

1.先导入模块，首先打开wiindows命令行，输入pip install requests下载requests这个模块，打开trae，用import request语句导入request模块，把该模块下的Python代码拷贝到当前这个py文件当中。

2.通过requests这个模块，通过get的请求方式，访问目标url

3.将访问结果用utf-8的方式进行编码，防止出现乱码

4.从lxml库中导入etree模块，把resp源码转换成dom树结构，通过html进行节点查询，找到目标节点，转换成python容易执行的格式，所有导入的模块文件都不用加py后缀

5.利于for i in range语句进行循环，i为盒子

6.利用def做自定义函数，函数功能用add定义 [def add （a,b）] return a+b

先设好形参，再设实参，最终print输出的结果以实参为准，没有实参以形参的值为准

7.json的格式内容要用花括号括起来

8.将id后面设置占位符，可以不断地去爬取网站上不同id用户的数据，爬取过程当中，useragent（伪装成浏览器，避免被识别成爬虫），referer（模拟访问来源，伪造正常跳转路径），cookie（提供登录凭证，获取访问权限）三种东西最好一种都不能少，不然网站会以为你不是真人是爬虫，就会限制你访问

9.max id代表id用户数的最大值，但是实际上，你的id取值范围最大值后面还要加个1，但这个最大值id加1是不可取的，然后要以get方式收取url响应

try：尝试执行代码块，是操作主体

except：捕获异常，当try块出错时执行此处

pass：忽略错误，保证程序继续执行

10.各种工具：dirsearch可暴力破解网站目录和文件，发现隐藏资源，针对可能的有价值的网站目录进行探测并拿到信息

sqlmap适合SQL注入，要在授权的情况下去测试，这款工具是根据python语言写的

查看全文

http://www.jsqmd.com/news/642238/