当前位置: 首页 > news >正文

Pandas 使用

1. value_counts()

统计某个列(Series)中各个唯一值出现的频率(次数)

2. ffill()
# 使用前向填充和后向填充的方法填补缺失值 4分data['Value'].ffill(inplace=True)data['Value'].bfill(inplace=True)# inplace=True 直接修改原数据
1. 求比例
# 1. 总患者数total=len(data)# 2. 分别统计高/低风险人数high_count=(data['RiskLevel']=='高风险患者').sum()low_count=(data['RiskLevel']=='低风险患者').sum()# 3. 计算比例high_rate=high_count/total low_rate=low_count/total# 输出(转百分比更直观)print(f"高风险患者占比:{high_rate:.2%}")print(f"低风险患者占比:{low_rate:.2%}")
# 直接统计所有RiskLevel的占比, key(RiskLevel值)-value(比例,小数)risk_ratio=data['RiskLevel'].value_counts(normalize=True)# 单独提取高、低风险print("高风险患者占比:",risk_ratio['高风险患者'])print("低风险患者占比:",risk_ratio['低风险患者'])
# 分组求比例:True=1,False=0,mean()=占比high_rate=(data['RiskLevel']=='高风险患者').mean()low_rate=(data['RiskLevel']=='低风险患者').mean()print(f"高风险患者占比:{high_rate:.2%}")print(f"低风险患者占比:{low_rate:.2%}")
2. numpy where 函数

importnumpyasnp# 1. 纯数字数组(不用任何数据集)arr=np.array([18,25,30,16])# 用 np.where 判断 BMI 范围result=np.where(arr>=28,"肥胖","正常")print(result)# 输出:['正常' '正常' '肥胖' '正常']# 创建新列'RiskLevel',根据住院天数判断风险等级data['RiskLevel']=np.where(data['DaysInHospital']>7,'高风险患者','低风险患者')
3. cut 函数 (类似 case when)

连续数值 → 分段打标签

importnumpyasnpimportpandasaspd# 1. 定义边界(5个边界)bmi_bins=[0,18.5,24,28,np.inf]# 2. 定义标签(4个标签,对应4个区间)bmi_labels=['偏瘦','正常','超重','肥胖']# 3. 执行分段:给每个BMI值分配区间标签data['BMIRange']=pd.cut(data['BMI'],bins=bmi_bins,labels=bmi_labels,right=False# 左闭右开:[0,18.5) [18.5,24) ...)
4. groupby 函数

http://www.jsqmd.com/news/819380/

相关文章:

  • AI编程伴侣:基于LLM的IDE集成开发助手设计与实战
  • 情绪真实性突破92.7%?ElevenLabs最新v3.2情绪模拟技术白皮书核心算法逐行解析,仅限本期开放
  • 别被OPC一人公司神话骗了 90%的人都踩错了这4个致命坑!
  • UFI(无UBM集成)扇入型WLCSP技术实现大尺寸芯片细间距封装
  • Ollama 相关命令
  • 构建组织级基础设施管理CLI:从设计到实现的全栈指南
  • 终极指南:3种方法快速部署Tsukimi Jellyfin客户端
  • 基于Electron的ChatGPT桌面客户端开发:从技术选型到功能实现
  • 携程问道(workbuddy 合作版)技能接入与使用文档
  • [具身智能-709]:ros2_control 里的 插件(Plugin)到底是什么?
  • Docker容器化高可用架构部署方案(九)
  • 基于MCP协议与微软Graph API构建安全可控的AI助手Outlook集成方案
  • ARM架构CPTR寄存器解析:虚拟化与安全控制
  • 知识入库:从文档加载到文本拆分
  • 运维系列【仅供参考】:彻底清除TortoiseSVN:从基础卸载到深度清理全指南
  • 杰理之先开广播再切换SPDIF光纤输入,会打印‘a’,无法播放和广播【篇】
  • 【权威实测报告】:对比12种生成场景下的真实Cost/Img,Midjourney API性价比跌破临界点?
  • AI驱动代码库优化:基于Claude Code的上下文工程与自动化重构实践
  • Copaw:专为算法竞赛设计的本地自动化测试与调试工具
  • CircuitPython库管理实战:从零构建嵌入式开发环境
  • 2026年AI学习指南:收藏这份靠谱进阶路径,轻松拉开差距!
  • 【shell编程知识点汇总】第九章 HTML 清洗、多行合并与条件替换
  • 说说Markdown为什么不会被HTML取代
  • KMS_VL_ALL_AIO:智能激活解决方案完全解析
  • 第6章:C++ Sanitizer全家桶实战
  • day22_深度学习入门与pytorch
  • 程序员的副业天花板:靠接私活实现年入百万的秘诀
  • AI智能体技能库开发指南:从原理到实战构建高效Agent应用
  • 苍穹外卖开发日记-微信登录
  • 2026年5月更新:美甲产业升级,甲片专用机定制厂家遴选全攻略 - 2026年企业推荐榜