当前位置: 首页 > news >正文

数据分析流程

  1. 数据理解
    分析数据集基本结构(前/后10行)
    知识点:
    Pandas库:df.head(10), df.tail(10)
    数据框结构:理解什么是行(样本)、列(特征/变量)。
    识别变量类型:
    数据类型:
    数值型:
    连续型:可在一定范围内取任意值(如身高、温度)。
    离散型:只能取整数(如人数、物品数量)。
    类别型:
    定类型:无顺序的类别(如性别、城市)。
    定序型:有顺序的类别(如评分等级:高、中、低)。
    Pandas操作:df.dtypes(查看数据类型),df.info()(更全面的信息),df['column'].unique()(查看唯一值),df.describe()(数值型描述统计),df.describe(include='object')(类别型描述统计)。

  2. 数据清洗
    缺失值处理:
    识别缺失值:df.isnull().sum()
    处理策略:

  3. 删除:df.dropna()(适用于缺失量少,或该行/列不重要时)

  4. 填充:
    统计量填充:用均值、中位数(数值型)、众数(类别型)填充。df.fillna()
    模型预测填充:使用KNN、回归等模型预测缺失值(更复杂,但更科学)。
    前后值填充:df.fillna(method='ffill'或'bfill')(适用于时间序列数据)

  5. 数据整理
    数据集转化:
    特征工程:创建新特征(如从日期中提取“月份”、“星期几”)。
    类型转换:将类别变量转换为数值(如pd.get_dummies()进行独热编码)。
    数据合并:pd.concat(), pd.merge()

数据标准化:
目的:消除不同特征量纲和数值范围差异对模型的影响。
方法:
Z-score标准化:(x - mean) / std,使数据均值为0,标准差为1。from sklearn.preprocessing import StandardScaler
Min-Max归一化:(x - min) / (max - min),将数据缩放到[0, 1]区间。from sklearn.preprocessing import MinMaxScaler

3.数据集分割
目的:评估模型在未见过的数据上的性能,防止过拟合。
方法:from sklearn.model_selection import train_test_split
操作:X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

  1. 数据分析
    核心目标:通过统计和可视化深入探索数据内在规律。
    探索性数据分析
    可视化库:matplotlib, seaborn
    常用图表:
    单变量分析:直方图、箱线图(查看分布、异常值)。
    双变量分析:散点图(查看关系)、热力图(查看相关性)。
    描述性数据分析
    统计量:
    集中趋势:均值、中位数、众数。
    离散程度:标准差、方差、四分位距。
    分布形态:偏度、峰度。

5.回归预测分析
回归预测
算法:
线性回归:from sklearn.linear_model import LinearRegression
决策树回归:from sklearn.tree import DecisionTreeRegressor
随机森林回归:from sklearn.ensemble import RandomForestRegressor

分析模型可靠性 & 误差分析
评估指标:
均方误差:from sklearn.metrics import mean_squared_error
平均绝对误差:from sklearn.metrics import mean_absolute_error
R²决定系数:from sklearn.metrics import r2_score
残差分析:绘制残差图(预测值 vs 残差),理想情况应随机分布在0附近。

模型参数检验
线性回归:检查系数及其p-value,判断特征是否显著。
树模型:查看特征重要性 model.feature_importances_
报告回归结果:
汇总并解释模型系数、截距、评估指标、显著性等。

6.数据可视化
产生并输出表格:
Pandas DataFrame的格式化输出,使用.to_excel()或.to_csv()导出。
产生并输出图形:
柱状图/条形图:plt.bar(),用于比较不同类别的数值。
饼图:plt.pie(),用于显示组成部分占比。
散点图:plt.scatter(),用于展示两个变量之间的关系。
箱线图:sns.boxplot(),用于展示数据分布和异常值。

http://www.jsqmd.com/news/31589/

相关文章:

  • 2025 年 11 月闭式冷却塔厂家推荐排行榜,工业闭式冷却塔,横流闭式冷却塔,逆流闭式冷却塔,复合流闭式冷却塔公司推荐
  • 2025 年 11 月锅炉厂家推荐排行榜,有机热载体锅炉,导热油锅炉,生物质锅炉,蒸汽锅炉,燃天然气锅炉,热水锅炉公司推荐
  • 每日反思(2025_11_03)
  • 2025 年 11 月高温轴承厂家推荐排行榜,耐高温轴承,不锈钢高温轴承,高速高温轴承,定制高温轴承公司精选
  • 2025 年 11 月清洗机厂家推荐排行榜,高压清洗机,工业清洗机,超声波清洗机,零部件清洗设备公司推荐
  • 2025 年 11 月电缆厂家推荐排行榜,国标电缆/国网南网入围电缆,铜芯/铝合金/光伏/新能源/工业/控制/拖链/橡胶/铠装电缆公司推荐
  • 9.22 未完成的情感投射
  • 20232306 2025-2026-1 《网络与系统攻防技术》实验四实验报告
  • 2025 年 11 月轮转印刷机厂家推荐排行榜,间歇式轮转印刷机,凸版/胶印/PS版间歇式轮转印刷机,专业印刷设备厂家推荐
  • 2025 年 11 月电磁铁厂家推荐排行榜,直流电磁铁,微型电磁铁,小型电磁铁,防爆电磁铁,比例电磁铁,非标电磁铁定制公司推荐
  • 2025 年 11 月柱塞泵厂家权威推荐榜:高压柱塞泵/液压柱塞泵/气动柱塞泵/电动柱塞泵/小型柱塞泵/超高压柱塞泵/往复式柱塞泵公司精选
  • 大文件上传公共库
  • 2025 年 11 月电磁阀厂家推荐排行榜,高压电磁阀,防爆电磁阀,比例电磁阀,汽车电磁阀,ABS电磁阀,ESP电磁阀,车用ESC电磁阀公司推荐
  • 2025 年 11 月 EVA 厂家推荐排行榜,EVA发泡胶/EVA板材/EVA卷材/EVA片材,防火EVA/阻燃EVA/防静电EVA/去味EVA/高弹EVA/彩色EVA公司推荐
  • 2025 年 11 月控制器厂家推荐排行榜,开关控制器,自动控制器,阀门控制器,智能控制器,限位开关控制器公司推荐
  • 请求库的封装
  • [jupyter]
  • 2025 年 11 月管道泵厂家推荐排行榜,新型管道泵,节能管道泵,低噪声管道泵,超低压管道泵,防爆管道泵,高压管道泵,防腐管道泵,SF管道泵,SFB管道泵,WF屋顶管道泵公司推荐
  • 2025 年 11 月冷却塔厂家推荐排行榜,工业冷却塔,开式冷却塔/钢制开式冷却塔,封闭式冷却塔/密闭式冷却塔,蒸发式冷却塔公司推荐
  • Spring 中的Event机制
  • jiangly模板-字符串
  • Java 内存模型(JMM)中 volatile 的作用与限制
  • 今日学习:二分
  • Ice Breaker Games - 一个在线免费的游戏网站,无需登录,打开即玩。
  • Java获取当前时间的下一天以及30天前的时间
  • 论文导读:从 TSMC ISSCC 看 SRAM 存算发展
  • edge chromium浏览器copilot图标消失处理
  • AI - 自然语言处理(NLP) - part 2 - 词向量 - 教程
  • 洛谷 P4577
  • C++算法贪心例题讲解 - 实践