当前位置: 首页 > news >正文

scrapy-redis项目:爬取某网站图书信息 - 实践

目标

网站:All products | Books to Scrape - Sandbox

需求

  1. 获取标题(title),价格(price),分类(category),详情(description),upc号码(upc),链接地址(url),图片地址(img_url)

  2. 如果有翻页就进行翻页处理

  3. 保存csv文件

步骤

  1. 创建scrapy计划

  2. 修改settings.py档案中需要进行修改的项

  3. 通过需求来写items.py字段

  4. 对页面进行数据抓包,分析页面

  5. 获取首页的分类列表,提前分类名称和详情链接

  6. 将获取到的url进行拼接,并且向分类页继续发送链接

  7. 获取分类页的每一个图书的详情页链接,并且判断该页是否有20条资料,有就进行翻页处理

  8. 进入图书详情页获取上述的信息

  9. 更改settings.py的配置文件,改用redis

  10. 将spider里面的爬虫继承的类修改成rediss

http://www.jsqmd.com/news/11371/

相关文章:

  • VonaJS AOP编程:全局中间件全攻略
  • 单调队列 (1) - 详解
  • 2025 年 密度 / 净化 / 零醛添加 / 装修 / 生态板 / 指接板板材厂家推荐:纯品梅花深耕高端定制,打造健康家居板材优质选择
  • Python3 math 模块
  • 深入解析:考研复习-线性代数-第二章-矩阵
  • PHP 与 HTML 混写基础
  • 2025 年隧道/车丝/打孔/矿用/R780/钢花钢管厂家推荐榜:精准匹配施工需求,优选可靠供应商
  • 2025 年最新推荐!空压机租赁公司综合实力榜单:涵盖无油 / 高压 / 阿特拉斯等机型及二手买卖置换回收,助力企业精准选靠谱服务商
  • 小波神经网络(WNN)预测代码
  • marimo python 响应式notebook 框架
  • 2025 年报警器厂家最新推荐权威榜单:海湾 / 青鸟 / 利达等品牌全覆盖,详解优质服务商助力安全选购NB烟感/松江烟感/三江烟感/燃气报警器厂家推荐
  • 优秀的研发经理,如何布局一周的工作?
  • Numerical Heat Transfer and Fluid Flow(《传热与流体流动的数值计算》)
  • 2025天文台圆顶加工厂家最新推荐榜:专业工艺与品质保障之选
  • 2025风机盘管厂家实力推荐:技术领先与品质保障的行业标杆
  • 2025蒸发式冷气机厂家TOP5推荐:节能降温与耐用品质深度
  • 2025 电缆绝缘材料生产厂家最新推荐榜单:技术实力型企业揭晓,选购指南同步发布
  • 基于Java+Springboot+Vue开发的体育场馆预约管理系统源码+运行步骤
  • Linux 终端查看最消耗 CPU 内存的进程
  • JavaScript性能优化实战大纲 - 指南
  • 2025 酒店家具厂家最新推荐榜:北木斋领衔五大实力品牌,品质与创新双驱动选购指南智能酒店家具厂家推荐
  • CRM选型指南 | CRM软件成本拆解:本地部署、云租赁
  • 宜倍鲜携手纷享销客CRM开启数字化转型(附四大核心场景)
  • IDEA创建maven项目的不同模板的含义
  • 示波器BLDC需要知道的知识
  • 直播app源码,如何提升用户登录验证的安全性? - 云豹科技
  • 2025 年国内包装袋厂家最新推荐排行榜:聚焦绿色环保与定制化,精选优质企业助力采购决策无纺布/降解/塑料/复合/可定制化包装袋厂家推荐
  • 快排模板1(lomuto分区)
  • 下载模板
  • Redis Stack搭建