当前位置: 首页 > news >正文

A1 学习速查表

附录目标

  • 快速回顾全书核心知识点
  • 遇到问题时快速定位解决方案
  • 业务场景 → 分析方法 → 工具函数 一站式查询
  • 可打印、可收藏、可贴在工位

一、核心函数卡片

1.1 数据读取与概览

函数做什么什么时候用输出什么
pd.read_csv()读取CSV文件拿到CSV格式数据的第一件事DataFrame
pd.read_excel()读取Excel文件业务报表、多Sheet数据DataFrame
df.head()显示前N行刚读完数据,确认加载正确表格
df.info()全身体检报告必做:了解行数、列数、类型、缺失文本报告
df.describe()数值列统计摘要了解数值分布、找异常值统计表

1.2 数据清洗

函数做什么什么时候用关键参数
df.isnull().sum()统计每列缺失数量发现缺失值
df.dropna()删除缺失值缺失极少(❤️%)subset,how
df.fillna()填充缺失值缺失较多,需要保留数据value,method
df.duplicated()检测重复行怀疑有重复数据subset,keep
df.drop_duplicates()删除重复行确认需要去重subset,keep
df.astype()转换数据类型类型不对时{'col': 'int'}
pd.to_datetime()转成日期格式日期存成了文本或数字format

1.3 探索性分析

函数做什么什么时候用输出什么
df['col'].unique()列出所有不同取值检查分类变量有哪些值列表
df['col'].value_counts()统计每个值的频次看分布、找脏数据频次表
df.groupby()分组聚合对比不同组的表现GroupBy对象
df.pivot_table()透视表多维度交叉分析透视表
df.corr()计算相关系数找变量之间的关系相关系数矩阵

1.4 可视化

函数做什么什么时候用适用场景
plt.plot()折线图看趋势、时间序列销售额变化
plt.bar()/sns.barplot()柱状图对比类别大小品牌销量对比
plt.hist()/sns.histplot()直方图看单变量分布价格分布
sns.boxplot()箱线图对比多组分布、找异常不同城市价格对比
sns.scatterplot()散点图看两个变量关系里程vs价格
sns.heatmap()热力图看相关性矩阵特征相关性
sns.pairplot()散点图矩阵快速扫描多变量关系探索性分析

1.5 建模

函数/类做什么什么时候用关键参数
train_test_split()划分训练/测试集建模前必做test_size,random_state
LinearRegression()线性回归基线模型、需解释性
DecisionTreeRegressor()决策树回归可解释、非线性max_depth
RandomForestRegressor()随机森林回归追求精度n_estimators
LogisticRegression()逻辑回归二分类基线class_weight
RandomForestClassifier()随机森林分类分类精度优先n_estimators
KMeans()K-Means聚类用户分群、发现分组n_clusters
mean_squared_error()计算MSE评估回归模型
accuracy_score()计算准确率评估分类模型(平衡数据)
classification_report()完整分类报告评估分类模型输出P/R/F1

1.6 时间序列

函数/方法做什么什么时候用关键参数
pd.to_datetime()转日期格式日期是文本/数字时format
df.set_index('date')设日期为索引时间序列分析前
df.resample('M').mean()重采样改变时间粒度频率(‘D’,‘W’,‘M’)
df.shift(1)滞后创建滞后特征periods
SimpleExpSmoothing()简单指数平滑平稳数据预测alpha
Holt()Holt趋势模型有趋势无季节trend
ExponentialSmoothing()Holt-Winters有趋势有季节seasonal

二、业务场景 → 分析方法对照表

2.1 用户增长与运营

业务问题分析方法核心指标可视化何时用
用户增长是快还是慢?趋势分析日活/月活增长率折线图定期监控
哪个渠道用户质量最好?分组对比各渠道留存率、LTV柱状图渠道评估
用户在哪一步流失最多?漏斗分析各环节转化率漏斗图优化转化路径
应该分成哪几类用户运营?聚类(RFM)R、F、M三个维度散点图/雷达图精细化运营
哪些用户快要流失了?分类(流失预警)召回率、精确率混淆矩阵提前干预

2.2 销售与商品

业务问题分析方法核心指标可视化何时用
整体销售趋势如何?趋势分析销售额、销量折线图月度/季度复盘
哪个商品卖得最好?排序+占比销售额Top N、集中度条形图/饼图商品运营
哪些因素影响价格?相关性分析相关系数热力图定价策略
商品定价合理吗?回归(价格预测)MAE、R²散点图(实际vs预测)动态定价
哪些商品常一起买?关联规则支持度、置信度网络图捆绑销售

2.3 风控与异常

业务问题分析方法核心指标可视化何时用
哪些交易可能是欺诈?异常检测召回率、精确率箱线图/散点图实时风控
用户的信用风险多高?分类(评分卡)AUC、KS值ROC曲线信贷审批
数据里有没有异常值?描述性统计/IQR最大值、最小值箱线图数据清洗
哪些订单是刷单?聚类(异常检测)轮廓系数散点图反作弊

2.4 财务与预算

业务问题分析方法核心指标可视化何时用
下个月/季度能赚多少?时间序列预测MAPE、RMSE预测vs实际折线图预算规划
成本主要花在哪里?构成分析各成本项占比饼图/堆叠柱状图成本控制
和去年同期比怎么样?同比/环比分析同比增长率双柱对比图业绩复盘

2.5 产品与体验

业务问题分析方法核心指标可视化何时用
新功能效果好吗?A/B测试p值、效应量箱线图对比功能上线后
用户最喜欢哪个功能?频次分析使用次数、使用时长条形图产品迭代
用户满意度怎么样?描述性统计平均分、NPS直方图服务质量监控

三、常见问题 → 解决方案对照表

3.1 数据清洗类

问题现象解决方案对应函数/方法
中文乱码显示ä½ å¥½换编码encoding='gbk''utf-8'
手机号前导0丢失13800138000变成1.38e10读成字符串dtype={'phone': str}
日期格式不对20240115无法做日期运算转日期格式pd.to_datetime(format='%Y%m%d')
数字里混了逗号"10,000"无法转数字先去逗号str.replace(',', '')
数字里混了单位"25岁"无法转数字提取数字str.extract('(\d+)')
缺失值用-表示info()显示object类型替换为NaNdf.replace('-', np.nan)
缺失值太多某列缺失>50%删除该列df.drop(columns=['col'])
存在完全重复行多行一模一样去重df.drop_duplicates()
存在异常值age列出现200删除或用中位数替换业务判断 + IQR/Z-score
Excel有合并单元格读出来很多NaN向下填充df.fillna(method='ffill')
Excel前几行不是数据前3行是标题/Logo跳过行skiprows=3

3.2 分析类

问题现象解决方案注意事项
均值不能代表典型值均值>中位数很多用中位数右偏分布
不知道用均值还是中位数数据有极端值用中位数或两者都汇报
两组数据差异是否显著看起来有差别t检验/卡方检验需要统计检验
变量之间有关系吗想探索关系散点图 + 相关系数先画图再看数
多个变量相关性想看整体关系热力图数值型变量
数据分布不对称直方图一边长尾log变换建模前处理
不知道数据有几个峰直方图可能有多个峰检查是否存在子群体分组分析
只有整体数据,没有细分的类别想比较不同组用业务规则构造分组时间组/数值分箱

3.3 建模类

问题现象解决方案调整方向
训练集好,测试集差过拟合降低模型复杂度减小max_depth,增加正则化
训练集差,测试集也差欠拟合增加模型复杂度增大max_depth,增加特征
类别不平衡正类只占1%过采样/欠采样SMOTE、class_weight
不同特征量纲差异大年龄vs收入标准化/归一化StandardScaler
分类变量不知道怎么处理品牌、城市等编码独热编码/标签编码
特征太多>100列特征选择方差阈值/特征重要性
树模型效果不好调参没用尝试集成/其他算法随机森林 → XGBoost
不知道选哪个模型多个候选交叉验证选验证集分数最高的
预测价格总是偏低模型有偏检查是否用了log变换预测结果需要变换回来
模型不稳定每次训练结果不同固定随机种子random_state=42

3.4 时间序列类

问题现象解决方案说明
随机划分导致泄露用未来预测过去按时间顺序划分前80%训练,后20%测试
不知道怎么选预测方法数据无趋势无季节移动平均/指数平滑最简单开始
数据有趋势整体向上或向下Holt趋势模型或做差分
数据有季节性每年/每月固定周期Holt-Winters或SARIMA
季节性强度不确定不知道加法还是乘法看波动幅度波动随趋势放大用乘法
预测结果滞后预测总是比实际慢半拍调整参数/换模型增大alpha
需要预测的步数多预测未来12个月递归预测 vs 直接预测多步预测误差会累积

3.5 可视化类

问题现象解决方案替代方案
类别太多>10个,柱子挤在一起水平条形图排序后只显示Top N
饼图扇区太多超过5个换成条形图合并“其他”类别
Y轴截断差异被夸大Y轴从0开始如需截断,明确标注
颜色难以区分红绿色盲无法分辨用蓝+橙加形状区分
3D图表遮挡、扭曲用2D绝对不用3D
双Y轴引起误解两个量纲放在一起分开画图或用标准化后对比
数据点太多重叠>10000点随机抽样/六边形分箱密度图

四、速查表使用指南

4.1 遇到问题时

1. 先看“常见问题 → 解决方案对照表” 2. 定位问题类型(数据清洗/分析/建模/时间序列/可视化) 3. 找到对应解决方案 4. 按方案操作或向AI描述需求

4.2 不知道用什么方法时

1. 先看“业务场景 → 分析方法对照表” 2. 找到你的业务问题(用户增长/销售/风控/财务/产品) 3. 查看推荐的分析方法、核心指标、可视化 4. 再查“核心函数卡片”了解具体工具

4.3 向AI描述需求时

你想做什么参考这句话
数据清洗“读取CSV时中文乱码,换GBK编码”
缺失值“用中位数填充年龄列的缺失值”
分组对比“按品牌分组,计算每个品牌的平均价格”
可视化“画一个箱线图,对比不同变速箱类型的价格分布”
建模“用随机森林训练价格预测模型,输出特征重要性”
聚类“对用户做K-Means聚类,K=4,然后分析每组特征”
时间序列“用Holt-Winters预测未来6个月的销售额”

五、打印版(可裁剪)

┌─────────────────────────────────────────────────────────┐ │ 【数据清洗速查】 │ │ 乱码 → 换编码(utf-8/gbk) │ │ 丢0 → 读成字符串 │ │ 日期不对 → to_datetime │ │ 缺失值 → dropna(少) / fillna(多) │ │ 重复 → drop_duplicates │ │ 异常 → IQR / Z-score │ └─────────────────────────────────────────────────────────┘ ┌─────────────────────────────────────────────────────────┐ │ 【可视化速查】 │ │ 趋势 → 折线图 │ │ 对比 → 柱状图 │ │ 占比 → 饼图(≤5类) / 条形图(>5类) │ │ 分布 → 直方图/箱线图 │ │ 关系 → 散点图 │ │ 相关 → 热力图 │ └─────────────────────────────────────────────────────────┘ ┌─────────────────────────────────────────────────────────┐ │ 【建模速查】 │ │ 回归(预测数字) → 线性回归(基线) / 随机森林(精度) │ │ 分类(预测类别) → 逻辑回归(基线) / 随机森林(精度) │ │ 聚类(发现分组) → K-Means │ │ 过拟合 → 降低复杂度 / 增加数据 │ │ 欠拟合 → 增加复杂度 / 增加特征 │ └─────────────────────────────────────────────────────────┘ ┌─────────────────────────────────────────────────────────┐ │ 【评估指标速查】 │ │ 回归:MAE(平均误差) / RMSE(大误差惩罚) / R²(解释力) │ │ 分类:准确率(平衡) / 召回率(抓坏人) / 精确率(不误伤) │ │ F1(P/R调和) / AUC(排序能力) │ │ 时序:MAE / RMSE / MAPE(相对误差) │ └─────────────────────────────────────────────────────────┘

下一节预告:A2 如何向AI描述需求(提示词模板库)—— 学会用自然语言让AI帮你完成数据分析任务。

http://www.jsqmd.com/news/811734/

相关文章:

  • 2026年GEO优化服务商口碑哪家好?案例验证与服务响应深度解析 - 科技焦点
  • 兔抗FANCI抗体亲和纯化,IP-WB全流程兼容设计,一站式解决FANCI蛋白分析功能
  • 从接入到上线观察 Taotoken 对开发者体验的整体提升
  • Arm Cortex-R52处理器流水线优化与指令调度实战
  • 2026年三款最值得在线预约小程序,解决您的预约难题
  • 在Windows上安装安卓应用的轻量化实践
  • 用ChatGPT 10分钟生成TikTok爆款脚本:5步工作流+3类高转化话术模板(附Prompt库下载)
  • 【OAI实战】基于Docker-Compose的5G核心网基础部署与排错指南
  • 实习期如何脱颖而出?3个月转正答辩的满分操作
  • 2026年GEO优化公司专业性评测:五大服务商技术能力深度对比 - 科技焦点
  • SpringAI全流程实战手册
  • DSP28335串口调试别再抓瞎了!手把手教你重定向printf到串口(附完整代码)
  • MBTI十六型人格职业性格测试源码完整版 亲测源码
  • 解决每次打开JFlash就提示:Device: TLE9863QXW20: Flash bank 0x11000000: No loader specified的问题
  • ContextPacker MCP Server:让AI编程助手精准读取GitHub代码库
  • 2026年GEO优化公司哪家靠谱?TOP5热门服务商选型指南 - 科技焦点
  • 通过curl命令快速测试Taotoken的OpenAI兼容接口与模型响应
  • Taotoken 的 Token Plan 套餐在实际项目中如何节省开支
  • 医疗技术创新为何难落地?从临床需求到法规资本的全链路解析
  • G-PCC编解码器核心模块解析:从八叉树到属性编码的技术演进
  • Shipwright:AI驱动的产品经理操作系统,从提示词到质量系统
  • 如何用Seraphine提升英雄联盟游戏体验:新手必备的智能助手完整指南
  • AI小白必看:收藏这份从零入门大模型的核心概念指南
  • 洛谷 P4097 【模板】李超线段树 / [HEOI2013] Segment - Rye
  • 技术新人最常犯的5个错误,第3个几乎人人都中招——软件测试从业者深度指南
  • A2 如何向AI描述需求(提示词模板库)
  • Deeplearning4j完全指南
  • 别再为进度条出图发愁了!手把手教你扩展Unity UGUI Image组件,让Filled模式完美支持九宫格
  • 如何永久免费使用AI编程助手:Cursor Free VIP完整指南
  • AI从入门到精通:一条清晰的脉络,带你读懂机器学习、深度学习与大模型的底层逻辑!