当前位置: 首页 > news >正文

Python与爬虫

爬虫是一种Python编写的,按照既定的规则,抓取网站数据的脚本程序,其优点在于,语言简洁,工作效率高,适合重复性工作

1.先导入模块,首先打开wiindows命令行,输入pip install requests下载requests这个模块,打开trae,用import request语句导入request模块,把该模块下的Python代码拷贝到当前这个py文件当中。

2.通过requests这个模块,通过get的请求方式,访问目标url

3.将访问结果用utf-8的方式进行编码,防止出现乱码

4.从lxml库中导入etree模块,把resp源码转换成dom树结构,通过html进行节点查询,找到目标节点,转换成python容易执行的格式,所有导入的模块文件都不用加py后缀

5.利于for i in range语句进行循环,i为盒子

6.利用def做自定义函数,函数功能用add定义 [def add (a,b)] return a+b

先设好形参,再设实参,最终print输出的结果以实参为准,没有实参以形参的值为准

7.json的格式内容要用花括号括起来

8.将id后面设置占位符,可以不断地去爬取网站上不同id用户的数据,爬取过程当中,useragent(伪装成浏览器,避免被识别成爬虫),referer(模拟访问来源,伪造正常跳转路径),cookie(提供登录凭证,获取访问权限)三种东西最好一种都不能少,不然网站会以为你不是真人是爬虫,就会限制你访问

9.max id代表id用户数的最大值,但是实际上,你的id取值范围最大值后面还要加个1,但这个最大值id加1是不可取的,然后要以get方式收取url响应

try:尝试执行代码块,是操作主体

except:捕获异常,当try块出错时执行此处

pass:忽略错误,保证程序继续执行

10.各种工具:dirsearch可暴力破解网站目录和文件,发现隐藏资源,针对可能的有价值的网站目录进行探测并拿到信息

sqlmap适合SQL注入,要在授权的情况下去测试,这款工具是根据python语言写的

http://www.jsqmd.com/news/642238/

相关文章:

  • 2026年4月广东地区树莓原浆优质生产厂家深度解析 - 2026年企业推荐榜
  • 【maaath】Flutter 三方库 pull_to_refresh 的鸿蒙化适配与实践:列表下拉刷新与上拉加载
  • 测试工程师的加分项:自动化+AI双修指南
  • QT5.12 + libmodbus RTU实战:用多线程解决界面卡顿,打造流畅的Modbus主机程序
  • 从NeRF到ConvONet:手把手教你用Python和PyTorch搭建自己的三维重建模型(附代码)
  • AI产品经理成长手册:从代码到商业的跨越
  • 面试最后反问,说错直接淘汰
  • 多模态评估进入“后基准时代”(行业首个支持动态任务流+长时序交互+跨设备协同的评估框架V2.3正式开源)
  • Linux系统移植
  • SUMO TraCI 函数避坑指南:车辆状态获取常见错误及解决方法
  • 基于LLM的高校招生智能问答系统
  • 如何用3个简单步骤实现八大网盘文件直链提取与高效下载
  • 用RAG的思路做agent知识管理,为什么跑不通
  • 为什么顶尖开发者都懂业务逻辑?职业加分秘诀
  • ShardingSphere 5.2.1 启动报错 SPI-00001?别慌,试试降级到 5.1.1 的完整避坑指南
  • 远程开发团队领导力:测试工程师升职加薪的隐形规则
  • CasADi实战:用Python搞定机器人路径规划中的数值优化问题(附完整代码)
  • 番茄小说下载器:如何用技术调色板打造你的个人数字图书馆?
  • 2026软件行业薪资报告:你的位置在哪里?
  • Ubuntu服务器编译安装Nginx
  • 生成对抗网络 GAN 基础:对抗训练原理
  • Vivado新手必看:Zynq开发板串口无打印的5个常见原因及解决方法
  • 电力电子变压器与磁学知识点梳理笔记
  • 手把手教你为vSAN集群规划网络:ESXi 8.0U3e多网卡、VLAN与IP地址实战配置
  • 从矩阵视角解析OTFS:输入输出关系的实现与演进
  • League Akari:英雄联盟智能辅助工具终极指南
  • 从RAG到自更新知识库
  • CTF入门指南:Web安全提权实战解析
  • Haystack实战指南:从零构建高效RAG应用
  • Knowledge - Based Systems、 Declaration of Interest statement 是什么? 爱思唯尔论文需要每个人同意吗