当前位置：首页 > news >正文

pandas数据处理——取出重复数据

news 2026/4/15 12:23:41

pandas数据处理——取出重复数据

平常我们用pandas做重复数据处理时，常常调用到drop_duplicates方法来去除重。

现在我不想完全去除重复，而是把重复数据输出，现有数据如下所示：

dic = {'序号':[2,3,4,5,6,7,8,9,10,11,12,13,14,15],'地市缩写': ['LF','CZ','HS','ZJ','TS','HD','广阳','CD','QH','XT','XA','BD','SJ','栾城'],
'地市': ['廊坊','沧州','衡水','张家口','唐山','邯郸','廊坊','承德','秦皇岛','邢台','雄安','保定',
'石家庄','石家庄']}
p_city = pd.DataFrame(dic)
print(p_city )

输出：

方法一：

重复数据保留一个，duplicate_bool输出的是bool类型值，通过判断bool==True，取出重复行。

duplicate_bool = p_city.duplicated(subset=['地市'],keep='first')
print(duplicate_bool )
repeat =p_city.loc[duplicate_bool ==True]
print(repeat)

输出：

方法二：

采用drop_duplicates对数据去两次重，一次将重复数据全部去除(keep=False)，一次将重复数据保留一个(keep=last/first)，将两个去重后的数据做差集，取出重复行。

#重复数据全部去除

data1 = p_city.drop_duplicates(subset=['地市'],keep=False)
print(data1)

输出：

#重复数据保留一个

data2 = p_city.drop_duplicates(subset=['地市'],keep='last')
print(data2)

输出：

#做差集，取出重复行

data1 = p_city.drop_duplicates(subset=['地市'],keep=False)
data2 = p_city.drop_duplicates(subset=['地市'],keep='last')
repeat = pd.concat([data2,data1]).drop_duplicates(keep=False)
print(repeat)

输出：

http://www.jsqmd.com/news/644693/

相关文章：

终极Win11系统优化指南：使用Win11Debloat让电脑重获新生

Ubuntu 18.04/20.04网络连接保姆级修复指南：从基础配置到WiFi驱动调优

B站字幕提取终极指南：3分钟学会免费下载CC字幕的完整方法

XB3303G 单节锂离子/锂聚合物可充电电池组保护芯片

Photoshop图层批量导出终极指南：高速工具大幅提升工作效率

ArduRemoteID开源无人机远程身份识别系统：FAA合规技术实现与多协议集成指南

三分钟掌握原神抽卡数据分析神器：告别盲抽时代

惠州汽车栅格模胚加工厂家 - 昌晖模胚

OpenClaw人人养虾：openclaw cron

从零入门大模型：我的LLM学习路线及转行经验分享（收藏版）

Cursor Pro 终极破解方案：开源工具cursor-free-vip实现AI编程助手永久免费使用完整指南

Adobe-GenP终极指南：5分钟解锁Adobe全家桶的完整方案

告别版本混乱！用SDKMAN在Windows上统一管理Java、Gradle版本（保姆级避坑指南）

从‘叠罗汉’到精准操控：Godot节点选择与层级管理的避坑指南

3分钟掌握Waifu2x-Extension-GUI：AI超分辨率工具让你的图片视频瞬间高清化

【LE Audio】ASCS精讲[4]: 服务特征与ASE端点，从数据结构到交互逻辑

终极指南：使用novideo_srgb免费校准NVIDIA显卡显示器色彩

2026年能源职业学院机构评价排行榜：民办高校/智能制造/能源职院/现代服务业/新能源汽车 - 品牌策略师

Redis 和数据库双写一致性问题如何解决？

CDS API 终极指南：Python 连接 Copernicus 气候数据宝库

全面解读 PCA、t-SNE 与 UMAP 三大降维算法

除了Keil和IAR，汽车电子工程师为啥还在用Green Hills MULTI？聊聊它的调试绝活

选购洁净度检测仪必看，高性价比品牌与正规生产厂家汇总 - 品牌推荐大师1

如何永久保存微信聊天记录：WeChatMsg让珍贵对话不再消失

探讨扬州讯灵AI十Agent双引擎优化，其性价比哪家高 - 工业品牌热点

从0x34 RequestDownload看汽车OTA升级：数据下载服务在ECU刷写中的关键作用与安全设计

吵了几个月，Linus终于拍板！Linux正式为AI代码“立法”：允许用AI，但锅必须人背

三分钟上手Midscene：零代码实现全平台UI自动化的终极指南

3大核心技术实现Cursor Pro功能永久免费：终极解决方案指南

【Linux线程】Linux系统多线程（六）：＜线程同步与互斥＞线程同步（上）