当前位置：首页 > news >正文

【CDA干货】数据分析面试常考20个核心知识点（附面试问法+标准回答+避坑指南）

news 2026/7/11 1:01:51

作者：李诗怡，CDA二级持证人，大数据工程技术专业大三在读

一、统计学与概率

（一）描述性统计

1、面试问法

如果数据有异常值，用均值还是中位数更能代表整体水平？

2、标准回答

选择中位数。因为均值容易被极端值带偏，算出来的结果离大多数数据很远；而中位数只看排序后中间那个数，极端值再大再小也影响不到它。

3、避坑指南

切忌只回答用中位数三个字。面试官考察的是你对两种指标差异的理解，必须补充均值受极端值影响、中位数更稳健的原因，不然的话会显得专业度不足。

（二）标准差与方差

1、面试问法

两个班级平均分相同，但标准差不同，说明什么？

2、标准回答

标准差反映的是数据的离散程度。两个班级平均分相同，说明整体水平相当；但标准差不同，意味着成绩的分布差异不同，标准差越大，班级内学生成绩越分散，高分和低分差距越大；标准差越小，成绩越集中，整体水平更均衡。

3、避坑指南

不要混淆方差和标准差的实际含义。方差是标准差的平方，单位是原数据单位的平方，更难直观理解；而标准差的单位与原数据一致，更适合描述离散程度。面试时不要说反两者的含义。

（三）正态分布与68-95-99.7法则

1、面试问法

如果一个指标服从正态分布，均值100，标准差15，那么115到130之间的比例大约是多少？

2、标准回答

约13.6%。根据正态分布的68-95-99.7法则，数据落在均值±1个标准差范围内的比例约68%，落在均值±2个标准差范围内的比例约95%。因此，1σ（100+15=115）到2σ（100+30=130）之间的比例，就是（95%-68%）÷2=13.6%。

3、避坑指南

注意不要背错68、95、99.7这三个数字，也不要混淆±1σ、±2σ的范围计算。面试时最好先说法则内容，再计算比例，避免直接给答案而无推导过程。

（四）中心极限定理

1、面试问法

为什么样本量足够大时，样本均值的分布近似正态分布？

2、标准回答

这是中心极限定理的核心结论。不管总体本身服从什么分布是正态还是非正态，只要样本量足够大，样本均值的抽样分布就会接近于正态分布。而且，样本均值的均值等于总体均值，样本均值的标准差等于总体标准差除以样本量的平方根。

3、避坑指南

最常见的误区是误以为中心极限定理会让原始数据变成正态分布。实际是样本均值的抽样分布趋近正态，而非原始数据本身。面试时一定要明确这一点。

（五）假设检验与p值

1、面试问法

p=0.03是什么意思？能说原假设成立的概率是3%吗？

2、标准回答

不能。p值的核心含义是在原假设为真的前提下，观察到当前实验结果或更极端情况的概率。p=0.03表示，若原假设成立，出现当前结果及更极端结果的概率仅为3%。但绝对不能说原假设成立的概率是3%，p值衡量的是数据与原假设的一致性，不是原假设本身成立的概率。

3、避坑指南

这是面试官高频挖的坑。记住p值描述的是数据与原假设的矛盾程度，不是原假设成立的概率。回答时一定要明确区分。

二、SQL

（一）JOIN的区别与使用场景

1、面试问法

INNER JOIN和LEFT JOIN的结果有什么不同？

2、标准回答

两者的核心区别在于不匹配的行怎么处理。INNER JOIN只返回两个表中满足连接条件、相互匹配的行，不匹配的行会被过滤掉。LEFT JOIN会返回左表中的全部行，无论左表中的行是否能在右表中找到匹配项；若右表无匹配行，则右表对应的字段填充为NULL。

3、避坑指南

两个常见错误：一是说反左表和右表的作用；二是忘记提及右表无匹配时补NULL，这是LEFT JOIN与INNER JOIN最关键的区别之一。

（二）窗口函数

1、面试问法

分组排名时，相同分数下一个名次是跳过还是连续？

2、标准回答

三个函数的差异在于对相同值的排名处理

●RANK：跳过重复名次，比如相同分数排名为1,2,2,4
●DENSE_RANK：连续排名，不跳过，比如1,2,2,3
●ROW_NUMBER：不考虑重复值，按顺序给每一行分配唯一连续编号，比如1,2,3,4

3、避坑指南

最好结合具体例子说明，避免只说概念而分不清三者的实际输出。尤其要区分RANK和DENSE_RANK的差异，这是面试官最常考察的点。

（三）GROUP BY + HAVING

1、面试问法

WHERE和HAVING的区别？

2、标准回答

两者的区别在于过滤时机和作用对象不同。WHERE在分组之前过滤行，作用于原始数据的每一行，只能过滤非聚合字段。HAVING在分组之后过滤结果，作用于分组后的聚合结果，只能过滤聚合字段。

3、避坑指南

常见的错误是在HAVING中使用非聚合字段，比如HAVING age > 18，而age未参与聚合，这种写法是错误的。面试时要明确区分分组前和分组后的过滤逻辑。

（四）执行顺序

1、面试问法

SELECT、FROM、WHERE、GROUP BY、HAVING、ORDER BY的执行顺序是什么？

2、标准回答

正确的执行顺序是：FROM → WHERE → GROUP BY → HAVING → SELECT → ORDER BY。FROM指定数据来源，WHERE过滤原始行，GROUP BY分组，HAVING过滤分组结果，SELECT筛选字段，最后ORDER BY排序。

3、避坑指南

很多候选人误以为SELECT先执行，这也是为什么很多人不理解不能在WHERE中使用SELECT字段别名，因为SELECT在WHERE、GROUP BY之后执行，此时别名还未生效。面试时要明确这个顺序。

三、数据分析思维

（一）漏斗分析

1、面试问法

某App从打开到支付的转化率只有10%，如何定位流失环节？

2、标准回答

通过漏斗分析拆解全流程。第一步，明确从打开App到完成支付的关键步骤，比如：打开App → 进入商品页 → 加入购物车 → 提交订单 → 完成支付。第二步，计算每一步的转化率。第三步，对比各环节转化率，找到转化率骤降的环节，那就是主要流失点，再进一步分析流失原因，比如支付流程繁琐、库存不足等。

3、避坑指南

避免只计算整体转化率而不拆解步骤。面试官考察的是你的拆解思维，只有拆解到每一步才能精准定位问题，只说整体转化率等于没回答。

（二）对比与拆解思维

1、面试问法

某月销售额下降了20%，你怎么分析？

2、标准回答

用先把公式拆开，再多个角度对比思维。第一步，拆解销售额公式销售额=用户数×转化率×客单价，判断是哪个因子导致的下降。第二步，多维度对比，比如同比、环比、分维度对比按渠道、地区、商品类别、用户群体拆分。第三步，结合业务场景比如促销结束、竞品冲击等，分析原因并给出解决方案。

3、避坑指南

避免直接给出单一原因而不使用拆解框架。面试官考察的是结构化分析能力，必须先拆解公式、再多维度对比、最后归因。

（三）相关性与因果

1、面试问法

数据显示，喝咖啡的人工作效率更高，能说咖啡提升效率吗？

2、标准回答

不能。数据只能说明两者存在相关性，不能证明因果关系。可能存在混淆变量，比如，需要熬夜加班的人更爱喝咖啡，而他们本来就任务重、不得不高效，并不是咖啡让他们变高效。要证明因果关系，需要通过A/B测试或其他因果推断方法。

3、避坑指南

这是数据分析思维的核心考点，避免直接下因果结论。面试时要强调混淆变量和因果推断方法，体现严谨性。

四、数据处理与清洗

（一）缺失值处理方法

1、面试问法

一列数据缺失30%，你会怎么处理？

2、标准回答

先分析缺失机制看是随机缺失还是非随机缺失，再根据缺失比例和数据类型选择方法。缺失30%不建议直接删除。用填充法，数值型数据可填充均值或中位数，分类数据填充众数，也可用模型预测缺失值。也可单独作为未知类别，保留缺失信息。

3、避坑指南

避免无脑用均值填充。均值填充只适用于数据分布均匀、无异常值的场景，若有偏态或异常值，用中位数更合适。同时，一定要先分析缺失机制。

（二）异常值识别

1、面试问法

如何识别一列数值中的异常值？

2、标准回答

常用的方法有两种。一是3σ法，适用于正态分布数据，超出均值±3个标准差的范围判定为异常值。二是IQR法，适用于任何分布，计算IQR=Q3-Q1，低于Q1-1.5×IQR或高于Q3+1.5×IQR的判定为异常值。也可通过箱线图等可视化方式识别。

3、避坑指南

避免直接删除异常值而不分析原因。异常值不一定是错误数据，可能是高价值VIP用户。面试时要强调先分析原因，再决定删除、修正或保留。

（三）数据标准化 vs 归一化

1、面试问法

K-means聚类之前，为什么要对数据做标准化？

2、标准回答

因为K-means基于距离计算，不同特征的量纲可能差异很大比如如年龄10-80，消费金额100-10000，量纲大的特征会主导距离计算，导致聚类结果偏差。标准化可以将每个特征转换为均值0、标准差1的形式，消除量纲影响，让每个特征拥有同等权重。

3、避坑指南

不要混淆标准化和归一化。标准化转换为均值0、标准差1，取值范围无固定限制，简单说，就是让不同尺度的数据能公平比较；归一化缩放到[0,1]区间。面试时要明确区分。

五、可视化与业务应用

（一）图表选择

1、面试问法

展示某产品一年内的销量趋势用什么图？比较不同产品的销量用什么图？

2、标准回答

展示趋势用折线图，能清晰反映数据随时间的变化规律。比较不同产品的销量用柱状图，能直观对比多个类别的数值大小。

3、避坑指南

避免用柱状图展示连续时间趋势。虽然柱状图也能展示，但折线图更能突出趋势变化，面试时要根据展示目的选择图表。

（二）A/B测试结果评估

1、面试问法

A/B测试后，实验组转化率提高2%，但p=0.06，你怎么决策？

2、标准回答

通常以p<0.05为统计显著的标准。p=0.06>0.05，说明结果不显著，不能拒绝原假设，实验组的提升可能是随机波动导致的。不建议急于全量上线，建议延长测试时间、增加样本量，待p<0.05后再做决策。

3、避坑指南

避免看到转化率提升就直接上线。忽略p值的提升可能是随机波动，会导致错误决策。面试时要强调p值判断和样本量补充的重要性。

（三）辛普森悖论

1、面试问法

为什么每个分组的转化率都提高了，总体转化率却下降了？

2、标准回答

这是辛普森悖论，核心原因是各组样本量的比例发生了较大变化，导致分组趋势与总体趋势相反。解决方法是用分层分析，检查各分组的样本量权重，而不是直接看总体数据。

3、避坑指南

面试时最好能举一个简单易懂的例子，比如医院治愈率、产品转化率，避免只说理论而不会结合实际。这是面试官判断你是否真正理解的关键。

六、进阶/工具类

（一）Python/Pandas常用操作

1、面试问法

用Pandas如何删除重复行、填充缺失值、分组聚合？

2、标准回答

删除重复行用drop_duplicates()，可通过subset指定列、keep指定保留哪一行。填充缺失值用fillna()，可填充具体值或均值、中位数。分组聚合用groupby()搭配agg()，比如df.groupby('分组列').agg({'聚合列':['sum','mean']})。

3、避坑指南

避免只会SQL不会Pandas，或反过来。数据分析岗位通常要求两者都会，面试时若能清晰说出两种工具的对应操作会更有竞争力。同时不要记错方法名。

（二）数据倾斜

1、面试问法

在Hive/Spark中，某个reduce任务特别慢，可能是什么原因？

2、标准回答

最常见的原因是数据倾斜，某个或某些key的数据量过大，导致该key对应的reduce任务需要处理远超其他任务的数据。常用解决方法就是加盐法，给倾斜的key加随机前缀打散；两阶段聚合，先局部聚合再全局聚合。

3、避坑指南

数据倾斜主要在大数据岗位面试中考察，非大数据岗位可简要了解。但如果能说出原因和解决方法，会是加分项。避免只说数据倾斜而不解释。

七、总结

以上20个知识点覆盖了数据分析面试的核心考点。其中统计学、SQL、数据分析思维是必考内容，数据处理和可视化是实操核心，进阶工具类是加分项。

面试时，回答要逻辑清晰、结合例子，避开上面提到的那些坑。尤其是p值、相关性vs因果、辛普森悖论这几个点，面试官特别喜欢挖坑。

希望这份整理能帮你少走弯路，顺利拿到心仪的offer。

可以把这20个知识点做成 flashcards，每天抽几个自问自答，练到脱口而出、逻辑清晰为止。面试时越从容，越能体现出你的专业度。

想转行、想涨薪、想靠数据能力站稳职场？CDA 数据分析师认证帮你一步到位。零基础也能学，从 Excel、SQL 到 Python、可视化，全链路实战，贴合互联网、金融、零售等多行业真实需求。

查看全文

http://www.jsqmd.com/news/866595/

仅需1张RTX 4090就能跑满DeepSeek-R1 67B？——本地化部署性价比极限压测（含量化精度损失对照表）

YOLOv8 ROS 2深度解析：机器人视觉感知系统的架构设计与实践指南

在嵌入式开发中如何通过curl调用大模型API优化代码注释

使用 vxe gantt 实现行拖拽排序

工业吸尘器常见维修方法

管道腐蚀评估机构排名

做品牌生成式搜索占位，爱学AI GEO优化实测收录率超九成

揭秘CPU-Z：比鲁大师更精准的硬件检测软件！CPU-Z下载、安装及使用全攻略

反爬与绕过反爬技术总结

2026最最最新的JAVA后端开发八股文

武汉江岸区学钢琴哪家好？乐飞钢琴二十一年深耕 - 资讯纵览

专业的郑州苹果手机维修联系电话口碑佳的

如何快速下载并配置Taotoken的CLI工具实现一键接入

专职会计太贵！长沙财务合规、税务顾问、财务顾问机构更省钱 - 讲清楚了

2026年5月23日芝柏官方售后网点权威评测：基于真实体验与第三方佐证的核验报告 - 资讯纵览

【OpenClaw 进阶配置】如何让 MiniMax 搜索替代 SearXNG 作为 Web Search provider

烟台口碑好的装修公司怎么选？8步指南帮你避坑，烟台兴北居装饰值得参考

OBS Source Record插件深度解析：实现多源独立录制的进阶解决方案

独立开发者如何借助Taotoken快速构建并迭代AI应用原型

ncmdumpGUI：Windows平台免费NCM文件转换终极指南

浙江话语音合成紧急上线倒计时！3小时完成ElevenLabs定制Voice微调+合规备案（含方言伦理审查清单）

软文营销媒体发稿效果倍增逻辑内容渠道平台三维协同运营解析

视频号视频下载去水印方法全是坑？全网视频一键拿捏！2026封神玩法！

办理科技成果评价对企业有何作用？有哪些流程？需要哪些材料？

东南大学论文模板：8倍效率的学术排版革命

精选！2026重庆黄金回收好口碑快速上门TOP5 渝北本土标杆引领安全变现 - 资讯纵览

边际效应在数据分析中的应用

2026年初中中考英语单词表1600词高频速记必背词汇表带音标听力音频默写PDF版

旧账乱理不清？长沙财务合规、税务顾问、财务顾问机构专业梳理 - 讲清楚了

Kamailio 整数转字符串