当前位置: 首页 > news >正文

【PythonAI】2.2.2 技能实训:使用Pandas读取CSV/Excel文件,查看数据概览(2. 数据质量评估)

importpandasaspdimportnumpyasnp# 设置显示选项(统信UOS终端适配)pd.set_option('display.max_columns',None)pd.set_option('display.width',1000)pd.set_option('display.max_colwidth',50)# 读取CSV文件df=pd.read_csv('dirty_reviews.csv')# 查看基本信息print("数据形状:",df.shape)print("\n前5行数据:")print(df.head())print("\n数据信息:")df.info()print("\n基础统计:")print(df.describe())defdata_quality_report(df):"""生成数据质量报告"""report={'总记录数':len(df),'总列数':len(df.columns),'缺失值统计':df.isnull().sum().to_dict(),'缺失值比例':(df.isnull().sum()/len(df)*100).round(2).to_dict(),'重复行数':df.duplicated().sum(),'数据类型':df.dtypes.to_dict()}print("="*50)print("数据质量评估报告")print("="*50)forkey,valueinreport.items():print(f"\n【{key}】")ifisinstance(value,dict):fork,vinvalue.items():print(f"{k}:{v}")else:print(f"{value}")print("="*50)returnreport# 生成报告quality_report=data_quality_report(df)

运行结果:

(uos_ai_env)Muhtar@UOS-Desktop:~/AI_Projects$ python3 quality_report.py 数据形状:(6,6)前5行数据: user_id username rating comment submit_time city 0 1001 用户A 5.0 很好吃的红枣!<p>推荐购买</p> 2024-01-15 乌鲁木齐 1 1002 用户B 8.0 味道不错 2024/01/16 10:30 阿克苏 2 1003 用户C NaN NaN 2024.01.17 喀什 3 1001 用户A 5.0 很好吃的红枣!<p>推荐购买</p> 2024-01-15 乌鲁木齐 4 1004 用户D 9.0 物流很快,包装完好 2024-01-18 14:20 和田 数据信息: <class'pandas.core.frame.DataFrame'> RangeIndex: 6 entries,0 to 5Datacolumns(total 6 columns):# Column Non-Null Count Dtype----------------------------0 user_id 6 non-null int64 1 username 6 non-null object 2 rating 5 non-null float64 3 comment 5 non-null object 4 submit_time 6 non-null object 5 city 6 non-null object dtypes: float64(1),int64(1),object(4)memory usage: 416.0+ bytes 基础统计: user_id rating count 6.000000 5.000000 mean 1002.666667 6.200000 std 1.632993 2.167948 min 1001.000000 4.000000 25% 1001.250000 5.000000 50% 1002.500000 5.000000 75% 1003.750000 8.000000 max 1005.000000 9.000000 ================================================== 数据质量评估报告 ================================================== 【总记录数】 6 【总列数】 6 【缺失值统计】 user_id: 0 username: 0 rating: 1 comment: 1 submit_time: 0 city: 0 【缺失值比例】 user_id: 0.0 username: 0.0 rating: 16.67 comment: 16.67 submit_time: 0.0 city: 0.0 【重复行数】 1 【数据类型】 user_id: int64 username: object rating: float64 comment: object submit_time: object city: object ==================================================(uos_ai_env)Muhtar@UOS-Desktop:~/AI_Projects$
http://www.jsqmd.com/news/603706/

相关文章:

  • OpenClaw+千问3.5-9B邮件处理:自动分类与智能回复草稿
  • 2026医考十大机构综合实力榜发布:四大核心维度权威评测 - 医考机构品牌测评专家
  • 口碑封神!2026年值得信赖的GEO优化公司盘点,企业避坑必看 - 品牌测评鉴赏家
  • Vue.js监听器watch利用回调函数处理级联下拉框数据联动
  • 【JPCS出版,录用率高,快至提交出版后1个月见刊 | 高届数,EI检索有保障 | 多位院士杰青领衔报告 | 设置评优评奖环节】第十三届先进制造技术与材料工程国际学术会议 (AMTME 2026)
  • RNN、LSTM、BiLSTM学习笔记
  • 飞檐走壁分科目比赛建议
  • 【Motrix】Motrix官网下载:中文版下载工具使用指南(2026实测) - xiema
  • 读懂公司第二篇-利润表深度解读 - 智慧园区
  • 实战指南:基于快马生成的配置将openclaw部署至生产环境
  • SAP权限对象深度解析:如何用SU21自定义企业级数据权限控制?
  • 电机控制-MOS驱动和MOSFET如何匹配的,并计算栅极驱动电阻
  • 从手动到半自动:详解Metashape控制点校准航拍影像偏移的实战流程
  • MMsegmentation训练卡在第一个epoch?手把手教你修改DefaultSampler和EpochBasedRunner
  • 必看!2026主流GEO服务商盘点,新手博主/商家避坑指南 - 品牌测评鉴赏家
  • 别再问哪个AI 最强了,把它们放进同一个考场就知道
  • 解锁3大网页设计黑科技:从像素到原型的无缝转换
  • C++的std--ranges适配器元素
  • 2026上班族白发用什么染发膏好?温和便捷成首选 - 品牌排行榜
  • AI初创公司Rocket推出低成本咨询级产品策略报告平台
  • Go Module 的依赖版本控制
  • 2026防脱精华液适合男士的品牌推荐及养护指南 - 品牌排行榜
  • 测试工程师的悲哀:我们正在成为“人肉脚本”
  • 新概念英语第一册103_The French test
  • HTML打包EXE配置管理教程:多项目打包设置一键保存、加载与切换
  • 企业 AI 看起来很热,为什么真正稳定见效的并不多
  • Java 设计模式最佳实践:构建可维护的应用
  • LongCat-Image-Editn参数详解:UNet结构精简设计+CLIP文本编码器微调策略
  • Kilo推出企业智能体管理平台应对影子AI挑战
  • 暗黑3自动化工具终极指南:如何用智能技能宏提升游戏效率