当前位置: 首页 > news >正文

pandas数据处理——取出重复数据

pandas数据处理——取出重复数据

平常我们用pandas做重复数据处理时,常常调用到drop_duplicates方法来去除重。

现在我不想完全去除重复,而是把重复数据输出,现有数据如下所示:

dic = {'序号':[2,3,4,5,6,7,8,9,10,11,12,13,14,15],'地市缩写': ['LF','CZ','HS','ZJ','TS','HD','广阳','CD','QH','XT','XA','BD','SJ','栾城'],
'地市': ['廊坊','沧州','衡水','张家口','唐山','邯郸','廊坊','承德','秦皇岛','邢台','雄安','保定',
'石家庄','石家庄']}
p_city = pd.DataFrame(dic)

print(p_city )

输出:

方法一:

重复数据保留一个,duplicate_bool输出的是bool类型值,通过判断bool==True,取出重复行。

duplicate_bool = p_city.duplicated(subset=['地市'],keep='first')
print(duplicate_bool )
repeat =p_city.loc[duplicate_bool ==
True]
print(repeat)

输出:

方法二:

采用drop_duplicates对数据去两次重,一次将重复数据全部去除(keep=False),一次将重复数据保留一个(keep=last/first),将两个去重后的数据做差集,取出重复行。

#重复数据全部去除

data1 = p_city.drop_duplicates(subset=['地市'],keep=False)
print(data1)

输出:

#重复数据保留一个

data2 = p_city.drop_duplicates(subset=['地市'],keep='last')
print(data2)

输出:

#做差集,取出重复行

data1 = p_city.drop_duplicates(subset=['地市'],keep=False)
data2 = p_city.drop_duplicates(
subset=['地市'],keep='last')
repeat = pd.concat([data2,data1]).drop_duplicates(
keep=False)
print(repeat)

输出:

http://www.jsqmd.com/news/644693/

相关文章:

  • 终极Win11系统优化指南:使用Win11Debloat让电脑重获新生
  • Ubuntu 18.04/20.04网络连接保姆级修复指南:从基础配置到WiFi驱动调优
  • B站字幕提取终极指南:3分钟学会免费下载CC字幕的完整方法
  • XB3303G 单节锂离子/锂聚合物可充电电池组保护芯片
  • Photoshop图层批量导出终极指南:高速工具大幅提升工作效率
  • ArduRemoteID开源无人机远程身份识别系统:FAA合规技术实现与多协议集成指南
  • 三分钟掌握原神抽卡数据分析神器:告别盲抽时代
  • 惠州汽车栅格模胚加工厂家 - 昌晖模胚
  • OpenClaw人人养虾:openclaw cron
  • 从零入门大模型:我的LLM学习路线及转行经验分享(收藏版)
  • Cursor Pro 终极破解方案:开源工具cursor-free-vip实现AI编程助手永久免费使用完整指南
  • Adobe-GenP终极指南:5分钟解锁Adobe全家桶的完整方案
  • 告别版本混乱!用SDKMAN在Windows上统一管理Java、Gradle版本(保姆级避坑指南)
  • 从‘叠罗汉’到精准操控:Godot节点选择与层级管理的避坑指南
  • 3分钟掌握Waifu2x-Extension-GUI:AI超分辨率工具让你的图片视频瞬间高清化
  • 【LE Audio】ASCS精讲[4]: 服务特征与ASE端点,从数据结构到交互逻辑
  • 终极指南:使用novideo_srgb免费校准NVIDIA显卡显示器色彩
  • 2026年能源职业学院机构评价排行榜:民办高校/智能制造/能源职院/现代服务业/新能源汽车 - 品牌策略师
  • Redis 和数据库双写一致性问题如何解决?
  • CDS API 终极指南:Python 连接 Copernicus 气候数据宝库
  • 全面解读 PCA、t-SNE 与 UMAP 三大降维算法
  • 除了Keil和IAR,汽车电子工程师为啥还在用Green Hills MULTI?聊聊它的调试绝活
  • 选购洁净度检测仪必看,高性价比品牌与正规生产厂家汇总 - 品牌推荐大师1
  • 如何永久保存微信聊天记录:WeChatMsg让珍贵对话不再消失
  • 探讨扬州讯灵AI十Agent双引擎优化,其性价比哪家高 - 工业品牌热点
  • 从0x34 RequestDownload看汽车OTA升级:数据下载服务在ECU刷写中的关键作用与安全设计
  • 吵了几个月,Linus终于拍板!Linux正式为AI代码“立法”:允许用AI,但锅必须人背
  • 三分钟上手Midscene:零代码实现全平台UI自动化的终极指南
  • 3大核心技术实现Cursor Pro功能永久免费:终极解决方案指南
  • 【Linux线程】Linux系统多线程(六):<线程同步与互斥>线程同步(上)