当前位置: 首页 > news >正文

Python 扒网页数据简单尝试

首先免责声明:

本爬虫代码仅用于Python技术学习与合法研究,使用者需自行确保爬取行为符合所在地区法律法规、目标网站robots协议及服务条款,严禁抓取个人隐私、受版权保护的敏感数据,不得高频请求干扰网站正常运行。因不当使用产生的所有法律责任与后果,均由使用者本人全部承担,代码提供方不承担任何连带责任。

0.假定需求:

扒自己的博客首页的博客列表第一页的数据

https://zhaoxinghai.blog.csdn.net

1.准备工作:安装要用到的两个三方库

用cmd命令行执行以下命令进行安装。

如果提示pip命令无效的话,看这篇文章安装一下pip:Python pip安装-CSDN博客

pip install requests pip install beautifulsoup4

2.代码如下:

文件名test.py:

import requests from bs4 import BeautifulSoup url = 'https://zhaoxinghai.blog.csdn.net/' # 发送HTTP请求 response = requests.get(url) # 请求是否成功 if response.status_code == 200: # 解析HTML内容 soup = BeautifulSoup(response.text, 'html.parser') # # 获取页面数据 div 具体网页要看具体的标签名 # text = soup.find('div').text # print("所有数据:", text) list = soup.find_all('div', class_='blog-list-box-top') #子标签类名 for index,value in enumerate(list): # 不推荐使用.string 因为多层级标签或者有空数据的情况会返回None 而.text会返回所有子标签的数据拼接或者空字符串“” # print(f"博客:{index+1}", value.text) # .text的底层也是用的get_text方法,不过text不可以加参数,而这个可以使用参数,比如去除首尾空格strip=True print(f"首页第{index+1}条博客:", value.get_text(strip=True)) # 获取所有链接 # links = soup.find_all('a') # for link in links: # print("链接:", link.get('href')) else: print("请求失败,状态码:", response.status_code)

3.运行结果:

执行命令:py test.py 或者 python test.py

附-提取数据的三个方法的横向对比:

http://www.jsqmd.com/news/1100314/

相关文章:

  • 《招标投标法》修订落地,AI 标书工具如何适配全新行业合规要求|智标领航落地方案
  • 用Multisim14搞定模电课设:手把手教你搭建一个高低电平报警器(附仿真文件)
  • 性能测试实战指南:从JMeter、Locust到全链路压测与瓶颈定位
  • 原子化设计实践:从设计 Token 到可组合组件的工程化体系
  • 纺织业能耗监测:NILM技术应用与MATNILM模型解析
  • 3步搞定显卡内存检测:MemtestCL全面诊断GPU稳定性
  • 一线观察:长期体验长春汽车贴膜后发现的技术细节
  • 公园景观改造首选智能雾森系统 四季可用打造常态化唯美雾景
  • 国产 CPU 架构适配:OpenClaw 在飞腾 / 龙芯平台的运行优化与兼容性处理
  • GPT-5.6 出来了,但真正的大事不是“又一个新模型”
  • 影刀RPA新手教程:电商创业者完全指南——从零到一搭建第一个自动化选品采价流程
  • 基于YOLOv8的智能麻将机器人:从数据标注到机器人集成的全流程实战
  • 写论文要花 1 个月?笔墨 AI 帮你省掉 80% 机械工作,聚焦核心研究
  • OriginOS 6超无界状态栏深度解析:从Android UI定制到系统级个性化实践
  • 低查重AI教材编写秘籍:探秘实用AI工具,轻松搞定20万字教材!
  • Docker overlay2 占满磁盘怎么办?先定位再清理
  • 计算机毕业设计之基于Web的毕业论文在线批阅系统的设计与实现
  • Python爬虫经典案例014:爬虫数据存储方案Redis——高性能键值数据库的缓存与队列艺术
  • Vue3:defineOptions中inheritAttrs透传的用法和使用场景
  • OpenDog开源四足机器人:从零构建仿生机械狗的完整实践指南
  • Claroty 是如何保障 半导体产线 工控系统网络安全 与 合规落地?
  • 基于YOLOv8与MediaPipe的AI课堂行为分析系统实战指南
  • SpringBoot+Vue智慧停车场项目从零部署与核心模块解析
  • 终极TFT游戏助手:3大核心功能彻底改变你的云顶之弈体验
  • Uptime Kuma 监控通知全攻略:Telegram、飞书、企业微信、PagerDuty 深度配置
  • 开源AI音频插件终极指南:5步安装OpenVINO智能音频处理工具
  • 浅谈车膜老化问题:怎样贴才能用得更长久
  • 国家护网HVV高频面试题总结来了(题目+回答)
  • 02构建Agent的主流框架工具
  • LocalAI 和Ollama 功能、使用场景对比