Python与爬虫
爬虫是一种Python编写的,按照既定的规则,抓取网站数据的脚本程序,其优点在于,语言简洁,工作效率高,适合重复性工作
1.先导入模块,首先打开wiindows命令行,输入pip install requests下载requests这个模块,打开trae,用import request语句导入request模块,把该模块下的Python代码拷贝到当前这个py文件当中。
2.通过requests这个模块,通过get的请求方式,访问目标url
3.将访问结果用utf-8的方式进行编码,防止出现乱码
4.从lxml库中导入etree模块,把resp源码转换成dom树结构,通过html进行节点查询,找到目标节点,转换成python容易执行的格式,所有导入的模块文件都不用加py后缀
5.利于for i in range语句进行循环,i为盒子
6.利用def做自定义函数,函数功能用add定义 [def add (a,b)] return a+b
先设好形参,再设实参,最终print输出的结果以实参为准,没有实参以形参的值为准
7.json的格式内容要用花括号括起来
8.将id后面设置占位符,可以不断地去爬取网站上不同id用户的数据,爬取过程当中,useragent(伪装成浏览器,避免被识别成爬虫),referer(模拟访问来源,伪造正常跳转路径),cookie(提供登录凭证,获取访问权限)三种东西最好一种都不能少,不然网站会以为你不是真人是爬虫,就会限制你访问
9.max id代表id用户数的最大值,但是实际上,你的id取值范围最大值后面还要加个1,但这个最大值id加1是不可取的,然后要以get方式收取url响应
try:尝试执行代码块,是操作主体
except:捕获异常,当try块出错时执行此处
pass:忽略错误,保证程序继续执行
10.各种工具:dirsearch可暴力破解网站目录和文件,发现隐藏资源,针对可能的有价值的网站目录进行探测并拿到信息
sqlmap适合SQL注入,要在授权的情况下去测试,这款工具是根据python语言写的
