当前位置: 首页 > news >正文

102302155张怡旋数据采集第一次作业

作业一

核心代码与运行结果

1

2

大体思路:
在写代码之前我先进入了该网页查看源代码的信息,了解了html的结构分布等,再进行代码的编写。代码首先用requests发送 GET 请求,添加User-Agent模拟浏览器,避免反爬拦截;接着检查请求状态(raise_for_status()),设置utf-8编码解决中文乱码,用BeautifulSoup解析 HTML;然后通过class="rk-table"找到排名表格,筛选数据行(跳过表头);再遍历行数据,按单元格索引提取排名、学校名、省市、类型、总分,过滤字段不全的行;最后定义列宽,按表格样式打印数据,同时捕获网络和数据处理异常。
 心得:
实验过程中面临的核心难题,集中在网页标签的嵌套复杂程度与数据呈现的潜在差异上。提取学校名称时,发现部分院校信息同时包含专属中文标签(div.name-cn)与英文名称,若直接获取单元格完整文本,会造成中英文信息混杂,无法得到纯净的学校中文名;此外,不同学校名称的字符长度差距明显,直接输出会导致表格排版混乱,且个别数据行存在单元格数量不足的情况,按固定索引提取 “省市”“总分” 等字段时,极易触发索引越界错误。通过优先定位并匹配中文标签、增加单元格数量校验步骤,再结合字符串格式化设定统一列宽,最终成功实现了排名数据的精准提取与规整展示。这次实验让我深刻体会到,网页数据爬取的稳定性与对页面结构的深度解析程度直接相关。只有充分掌握表格的列字段对应关系、标签的嵌套层级逻辑,才能高效、准确地抓取目标信息。同时还需预判页面可能出现的结构变动,比如标签 class 名称修改、列顺序调整等,提前设计灵活的处理方案来进行数据的爬取。 

作业二

核心代码与运行结果(数据太多了只显示头和尾)

3

4.1

4.2

大体思路:
淘宝,京东等这些网页反爬能力强,所以选择了比较好爬的当当商场。首先我进入了当当商城的书包界面,进行了该页面源代码的了解,爬取的主要内容是商品的名称以及价格,着重看了html的结构,在代码中需要以正则表达式的形式提取出来。代码首先构建 URL,随机选 User-Agent 模拟浏览器,加 1-3 秒延迟防反爬;接着用正则匹配商品名(class="pic"的 a 标签 title)和价格(class="price_n"的 span 标签),清洗空格 / 换行;然后确保名称与价格数量一致,结构化存为字典;最后循环爬取指定页数,汇总数据后打印并保存到 CSV。
心得:
实验过程中遇到的主要挑战在于反爬限制与数据提取的问题。在发起请求时,未添加延迟会频繁触发网站反爬机制,导致请求失败;同时,当当网页面使用gb2312编码,初期未设置编码时商品名称出现乱码,且价格字段需适配 “¥” 实体符号,正则表达式若未精准匹配,会提取不到有效价格,商品名与价格数量也可能因页面加载异常出现错位。通过添加 1-3 秒随机延迟、轮换 User-Agent,手动设置编码为gb2312,并反复调试正则模式与数据数量校验逻辑,最终实现了商品数据的稳定爬取与准确对应。
这次实验让我认识到,网页爬取并非仅关注数据提取逻辑,反爬策略适配与编码处理是基础前提,而数据校验能有效避免因页面异常导致的错误。只有深入了解目标网站的访问规则与页面结构特性,才能构建稳定、高效的爬取流程,减少后续调试成本。
 

作业三

核心代码与运行结果

5

6

7

大体思路:
首先确定目标页面为福大新闻网 “影像福大” 栏目,核心需求是爬取页面中的有效图片并本地保存。先分析页面结构,明确图片链接存储在img标签的src属性中,需通过正则表达式提取,同时需过滤图标、小图等无效资源。代码实现分五步:第一步准备工作,配置请求头(含 User-Agent、Referer)模拟浏览器,创建 “fzu_images” 本地目录用于保存图片;第二步获取网页内容,发送请求访问目标 URL,读取并以utf-8编码解码 HTML 源码;第三步提取与清洗链接,用正则匹配所有img标签的src属性,过滤 ico/gif 图标、含 “logo” 的无效链接,将相对 URL 拼接为绝对 URL 后去重;第四步筛选有效图片,调用get_image_size函数获取图片尺寸,保留宽高均≥100 的图片链接;第五步下载与保存,遍历有效链接,处理文件后缀(限定 jpg/png/webp 格式,默认 jpg),发送请求下载图片并写入本地,统计下载成功率。
心得: 
实验过程中遇到的主要挑战集中在无效资源过滤与图片下载稳定性上。链接提取阶段,初期未过滤 ico、gif 图标及 logo 链接,导致爬取大量无用小图,后续通过后缀匹配与关键词筛选才精准定位有效图片;图片筛选阶段,若未校验尺寸,会下载低分辨率图片,影响使用价值,get_image_size函数通过读取图片数据获取尺寸,有效解决了这一问题。此外,网络波动或图片 URL 失效会导致下载失败,需通过异常捕获避免程序崩溃;同时,请求头中添加Referer字段是必要的,可降低被网站识别为爬虫的概率。这些问题让我意识到,图片爬取不仅要精准提取链接,更需通过多轮筛选保证资源质量,同时兼顾反爬策略与异常处理,才能实现稳定高效的爬取。

 

 

 

 

 

 

 

 

 

 

http://www.jsqmd.com/news/22131/

相关文章:

  • 序列异或求贡献
  • 深入解析:Java外功精要(2)——Spring IoCDI
  • 2025年矩形橡胶支座源头厂家权威推荐榜单:GJZ矩形橡胶支座/圆形橡胶桥梁支座/桥梁橡胶支座源头厂家精选
  • 2025年永磁同步变频器加工厂权威推荐榜单:高压变频柜装置/通用矢量变频器/高压变频器源头厂家精选
  • 首批CCF教学案例大赛资源上线:涵盖控制仿真、算法与机器人等9大方向 - 教程
  • HT-PBR-0006SMG:20W 连续、3 相位失衡,一颗贴片省掉整块匹配网络
  • 2025年人字纹机织布源头厂家权威推荐榜单:700g机织布/锦纶工业用布/800g机织布源头厂家精选
  • 双模更超模!飞利浦双模办公娱乐显示器27E2N5900RW优雅登场! - 实践
  • Day4无序,有序和定义列表
  • 技术管理
  • 威胁狩猎平台升级:全新认证机制与功能增强
  • SpringMVC 启动与请求处理流程解析 - Higurashi
  • 精读C++20设计模式——结构型设计模式:享元模式 - 实践
  • Java 企业 AI 转型选什么?JBoltAI 框架:20 + 大模型 + 向量数据库,AI 应用超灵活
  • 20232401 2025-2026-1 《网络与系统攻防技术》实验三实验报告
  • 2025 年破胶机厂家最新推荐排行榜:聚焦 610/710/810 型及大型自动低温环保设备,精选优质企业
  • 实用指南:音视频学习(六十七):音视频像素格式
  • 2025 年度深海网箱优质厂家最新推荐排行榜:大型 / 抗风浪 / 全潜式 / 重力式 / 休闲式 / 圆形 / PE/HDPE/ 挪威式网箱领军企业权威测评发布
  • 学习日报 20250928|Java日志规范:从基础规约到高级实践(含SkyWalking整合) - 实践
  • Log4Net配置文件参考
  • 2025年8座旅游观光车供应商权威推荐榜单:11座旅游观光车/景区观光车/燃油观光车源头厂家精选
  • 2025年服装厂家推荐排行榜,棒球帽,卫衣,羽绒服,春秋季运动休闲服饰厂家精选
  • 2025年铁氟龙高温线厂家权威推荐榜:极细铁氟龙/UL10064铁氟龙/UL1332铁氟龙/UL1867铁氟龙/UL10064极细铁氟龙/UL1332极细铁氟龙/UL1867极细铁氟龙专业解析
  • 2025年卫衣品牌权威推荐榜:精选纯棉/加绒/oversize/情侣款卫衣源头厂家,潮流与舒适兼备的穿搭首选
  • 2025年透声膜厂家权威推荐榜:防水透声膜,透气透声膜,手表/耳机/智能手环专用透声膜优质供应商精选
  • 2025年红木家具厂家权威推荐榜:交趾黄檀/小叶紫檀/巴里黄檀/缅甸花梨/阔叶黄檀,明清古典榫卯工艺高端定制全屋整装,源头工厂精选
  • 2025年红木家具厂家权威推荐榜:交趾黄檀/小叶紫檀/巴里黄檀/缅甸花梨/阔叶黄檀,明清古典榫卯工艺高端定制全屋整装,白胚烘干源头工厂精选
  • 2025年实木家具厂家权威推荐榜:原木/全实木/北美黑胡桃/樱桃木/榫卯工艺高端定制,实木全屋整装,烘干/白胚/木蜡油保养,经典款品质之选
  • 2025年除尘设备厂家权威推荐榜:脉冲除尘器、中央脉冲除尘器、工业除尘器源头企业综合实力解析
  • 2025年高压加速老化设备厂家推荐排行榜:HAST高压加速老化、PCT高压加速老化、热流仪源头厂家专业测评与选购指南