当前位置: 首页 > news >正文

如何准确判断json文件并且拿到我想要的信息

写在前面,自从发现拿到json解析后的文件中有我们想要的信息后,我稍微有点迷上这种方法,但是拿到内容后要怎么拿到想要的信息呢,字典列表相互嵌套,我头都晕了

方法:首先就是把json解析后的文本保存成.json的形式

这里展现的是微博的一个热搜页面

下面这个代码就是拿到想要的信息后保存下来,我们爬虫不要过度,要合法的爬取,礼貌的爬取

import requests import json url="https://weibo.com/ajax/side/hotSearch" headersvalue={ 'User-Agent':"自己的", "Referer":"自己的" } r=requests.get(url,headers=headersvalue) data=r.json() print(data) with open('weibo.json',"w",encoding="utf-8") as f: json.dump(data,f,indent=4,ensure_ascii=False)

可以看到一个文件的格式,是一个字典,下面的解释我就直接写在代码里面

详解1:

#拿这里面的信息hotgovs,首先看大结构,是一个字典,里面的键值对有{"ok":1,"data":xxx,"logs":xxx,} #我们要拿的东西在这个字典的键data对应的值里,字典取值用键,所以先选择这个键data['data'],拿到它的值,发现它的值也是一个一个字典 #继续根据你要的值找键 toptitle=data['data']['hotgovs'][0]["word"].strip("#") print(f'置顶标题:{toptitle}') #这里我们发现有一个realtime的键,值是一个列表,列表里装的元素是一个一个字典,字典有我们想要的标题还有热度之类的信息 #所以我们写一个循环,来遍历这个列表,列表的遍历有两种方法 #方法1:直接遍历 data=data['data']['realtime'] #这里遍历,item都是一个一个字典元素,所以取值还是用键值对 for item in data: #这样写有一个非常大的缺点,如果遍历到这个元素,没有这个键的话就会报错keykerror realpos=item["realpos"] word=item["word"] num=item["num"] print(realpos) print(word) print(num)

可以看到遍历到第7个元素报错了

找一下就会发现第七个元素不是我们要找的热点排行榜里面的,大概率是条广告

详解2:

#方法1:直接遍历 data=data['data']['realtime'] #这里遍历,item都是一个一个字典元素,所以取值还是用键值对 for item in data: #这样写有一个非常大的缺点,如果遍历到这个元素,没有这个键的话就会报错keykerror # realpos=item["realpos"] # word=item["word"] # num=item["num"] #所以保险起见,我们取字典的值用get()方法,是字典的专属方法 realpos=item.get('realpos','空') word=item.get('word','空') num= item.get('num', '空') print(realpos) print(word) print(num) #方法二:用enumerate方法遍历,这个方法返回的是元组,是索引加元素的组合 for index,item in enumerate(data): print(f"第{index}个热点") realpos = item.get('realpos', '空') word = item.get('word', '空') num = item.get('num', '空') print(realpos) print(word) print(num)
http://www.jsqmd.com/news/84603/

相关文章:

  • Python数据类型入门
  • 【WRF理论第二十期】湍流与扩散(Turbulence / Diffusion)
  • 架构系统序化
  • 基于透镜天线阵列的毫米波大规模多输入多输出(MIMO)系统可靠波束空间信道估计研究附Matlab代码
  • OpenVSCode Server终极性能调优与资源管理完整指南
  • Linux的权限
  • Python类入门:用“汽车工厂”理解面向对象编程
  • 如何用AlphaFold预测氨基酸突变对蛋白质结构的影响
  • 挖SRC漏洞入门教程(非常详细)从零基础入门到精通,看完这一篇就够了
  • 基于文化优化算法图像量化附Matlab代码
  • ASP毕业设计题目推荐:基于ASP+Access的校园二手交易平台设计与实现
  • 【大模型预训练】09-训练数据集生成技术:数据增强与合成数据的生成方法
  • 【Arduino Uno】数码管模拟值实验
  • 高频软件测试基础面试题
  • 挖漏洞一个月赚2万多,别被骗了!
  • 终极指南:如何为泉盛UV-K5对讲机刷入开源固件实现专业功能
  • 基于自抗扰控制ADRC的永磁同步电机仿真模型附Simulink仿真
  • C++进阶技巧:如何在同一对象中存储左值或右值
  • 进程PCB
  • 豆包手机AI Agent技术深度解析
  • Springboot医药采购管理2mqc3(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
  • LeetCode 41. 缺失的第一个正数 | 原地哈希最优解全解析
  • 线性回归模型
  • 榛子矮砧密植:水肥一体化系统的铺设要点指南
  • 我在私有漏洞赏金计划常规测试中发现IP欺骗漏洞的过程
  • 基于无迹卡尔曼滤波(UKF)与模型预测控制(MPC)的多无人机避撞研究附Matlab代码
  • java基础流程控制笔记
  • Flutter 通用轮播图组件 BannerWidget:自动播放 + 指示器 + 全场景适配
  • Java冷启动全指南:从原理到实战优化
  • 校招 Java 面试必看:JVM 其实就考这 3 个点(我帮你讲透)