【CDA干货】数据分析面试常考20个核心知识点(附面试问法+标准回答+避坑指南)
作者:李诗怡,CDA二级持证人,大数据工程技术专业大三在读
一、统计学与概率
(一)描述性统计
1、面试问法
如果数据有异常值,用均值还是中位数更能代表整体水平?
2、标准回答
选择中位数。因为均值容易被极端值带偏,算出来的结果离大多数数据很远;而中位数只看排序后中间那个数,极端值再大再小也影响不到它。
3、避坑指南
切忌只回答用中位数三个字。面试官考察的是你对两种指标差异的理解,必须补充均值受极端值影响、中位数更稳健的原因,不然的话会显得专业度不足。
(二)标准差与方差
1、面试问法
两个班级平均分相同,但标准差不同,说明什么?
2、标准回答
标准差反映的是数据的离散程度。两个班级平均分相同,说明整体水平相当;但标准差不同,意味着成绩的分布差异不同,标准差越大,班级内学生成绩越分散,高分和低分差距越大;标准差越小,成绩越集中,整体水平更均衡。
3、避坑指南
不要混淆方差和标准差的实际含义。方差是标准差的平方,单位是原数据单位的平方,更难直观理解;而标准差的单位与原数据一致,更适合描述离散程度。面试时不要说反两者的含义。
(三)正态分布与68-95-99.7法则
1、面试问法
如果一个指标服从正态分布,均值100,标准差15,那么115到130之间的比例大约是多少?
2、标准回答
约13.6%。根据正态分布的68-95-99.7法则,数据落在均值±1个标准差范围内的比例约68%,落在均值±2个标准差范围内的比例约95%。因此,1σ(100+15=115)到2σ(100+30=130)之间的比例,就是(95%-68%)÷2=13.6%。
3、避坑指南
注意不要背错68、95、99.7这三个数字,也不要混淆±1σ、±2σ的范围计算。面试时最好先说法则内容,再计算比例,避免直接给答案而无推导过程。
(四)中心极限定理
1、面试问法
为什么样本量足够大时,样本均值的分布近似正态分布?
2、标准回答
这是中心极限定理的核心结论。不管总体本身服从什么分布是正态还是非正态,只要样本量足够大,样本均值的抽样分布就会接近于正态分布。而且,样本均值的均值等于总体均值,样本均值的标准差等于总体标准差除以样本量的平方根。
3、避坑指南
最常见的误区是误以为中心极限定理会让原始数据变成正态分布。实际是样本均值的抽样分布趋近正态,而非原始数据本身。面试时一定要明确这一点。
(五)假设检验与p值
1、面试问法
p=0.03是什么意思?能说原假设成立的概率是3%吗?
2、标准回答
不能。p值的核心含义是在原假设为真的前提下,观察到当前实验结果或更极端情况的概率。p=0.03表示,若原假设成立,出现当前结果及更极端结果的概率仅为3%。但绝对不能说原假设成立的概率是3%,p值衡量的是数据与原假设的一致性,不是原假设本身成立的概率。
3、避坑指南
这是面试官高频挖的坑。记住p值描述的是数据与原假设的矛盾程度,不是原假设成立的概率。回答时一定要明确区分。
二、SQL
(一)JOIN的区别与使用场景
1、面试问法
INNER JOIN和LEFT JOIN的结果有什么不同?
2、标准回答
两者的核心区别在于不匹配的行怎么处理。INNER JOIN只返回两个表中满足连接条件、相互匹配的行,不匹配的行会被过滤掉。LEFT JOIN会返回左表中的全部行,无论左表中的行是否能在右表中找到匹配项;若右表无匹配行,则右表对应的字段填充为NULL。
3、避坑指南
两个常见错误:一是说反左表和右表的作用;二是忘记提及右表无匹配时补NULL,这是LEFT JOIN与INNER JOIN最关键的区别之一。
(二)窗口函数
1、面试问法
分组排名时,相同分数下一个名次是跳过还是连续?
2、标准回答
三个函数的差异在于对相同值的排名处理
- ●RANK:跳过重复名次,比如相同分数排名为1,2,2,4
- ●DENSE_RANK:连续排名,不跳过,比如1,2,2,3
- ●ROW_NUMBER:不考虑重复值,按顺序给每一行分配唯一连续编号,比如1,2,3,4
3、避坑指南
最好结合具体例子说明,避免只说概念而分不清三者的实际输出。尤其要区分RANK和DENSE_RANK的差异,这是面试官最常考察的点。
(三)GROUP BY + HAVING
1、面试问法
WHERE和HAVING的区别?
2、标准回答
两者的区别在于过滤时机和作用对象不同。WHERE在分组之前过滤行,作用于原始数据的每一行,只能过滤非聚合字段。HAVING在分组之后过滤结果,作用于分组后的聚合结果,只能过滤聚合字段。
3、避坑指南
常见的错误是在HAVING中使用非聚合字段,比如HAVING age > 18,而age未参与聚合,这种写法是错误的。面试时要明确区分分组前和分组后的过滤逻辑。
(四)执行顺序
1、面试问法
SELECT、FROM、WHERE、GROUP BY、HAVING、ORDER BY的执行顺序是什么?
2、标准回答
正确的执行顺序是:FROM → WHERE → GROUP BY → HAVING → SELECT → ORDER BY。FROM指定数据来源,WHERE过滤原始行,GROUP BY分组,HAVING过滤分组结果,SELECT筛选字段,最后ORDER BY排序。
3、避坑指南
很多候选人误以为SELECT先执行,这也是为什么很多人不理解不能在WHERE中使用SELECT字段别名,因为SELECT在WHERE、GROUP BY之后执行,此时别名还未生效。面试时要明确这个顺序。
三、数据分析思维
(一)漏斗分析
1、面试问法
某App从打开到支付的转化率只有10%,如何定位流失环节?
2、标准回答
通过漏斗分析拆解全流程。第一步,明确从打开App到完成支付的关键步骤,比如:打开App → 进入商品页 → 加入购物车 → 提交订单 → 完成支付。第二步,计算每一步的转化率。第三步,对比各环节转化率,找到转化率骤降的环节,那就是主要流失点,再进一步分析流失原因,比如支付流程繁琐、库存不足等。
3、避坑指南
避免只计算整体转化率而不拆解步骤。面试官考察的是你的拆解思维,只有拆解到每一步才能精准定位问题,只说整体转化率等于没回答。
(二)对比与拆解思维
1、面试问法
某月销售额下降了20%,你怎么分析?
2、标准回答
用先把公式拆开,再多个角度对比思维。第一步,拆解销售额公式销售额=用户数×转化率×客单价,判断是哪个因子导致的下降。第二步,多维度对比,比如同比、环比、分维度对比按渠道、地区、商品类别、用户群体拆分。第三步,结合业务场景比如促销结束、竞品冲击等,分析原因并给出解决方案。
3、避坑指南
避免直接给出单一原因而不使用拆解框架。面试官考察的是结构化分析能力,必须先拆解公式、再多维度对比、最后归因。
(三)相关性与因果
1、面试问法
数据显示,喝咖啡的人工作效率更高,能说咖啡提升效率吗?
2、标准回答
不能。数据只能说明两者存在相关性,不能证明因果关系。可能存在混淆变量,比如,需要熬夜加班的人更爱喝咖啡,而他们本来就任务重、不得不高效,并不是咖啡让他们变高效。要证明因果关系,需要通过A/B测试或其他因果推断方法。
3、避坑指南
这是数据分析思维的核心考点,避免直接下因果结论。面试时要强调混淆变量和因果推断方法,体现严谨性。
四、数据处理与清洗
(一)缺失值处理方法
1、面试问法
一列数据缺失30%,你会怎么处理?
2、标准回答
先分析缺失机制看是随机缺失还是非随机缺失,再根据缺失比例和数据类型选择方法。缺失30%不建议直接删除。用填充法,数值型数据可填充均值或中位数,分类数据填充众数,也可用模型预测缺失值。也可单独作为未知类别,保留缺失信息。
3、避坑指南
避免无脑用均值填充。均值填充只适用于数据分布均匀、无异常值的场景,若有偏态或异常值,用中位数更合适。同时,一定要先分析缺失机制。
(二)异常值识别
1、面试问法
如何识别一列数值中的异常值?
2、标准回答
常用的方法有两种。一是3σ法,适用于正态分布数据,超出均值±3个标准差的范围判定为异常值。二是IQR法,适用于任何分布,计算IQR=Q3-Q1,低于Q1-1.5×IQR或高于Q3+1.5×IQR的判定为异常值。也可通过箱线图等可视化方式识别。
3、避坑指南
避免直接删除异常值而不分析原因。异常值不一定是错误数据,可能是高价值VIP用户。面试时要强调先分析原因,再决定删除、修正或保留。
(三)数据标准化 vs 归一化
1、面试问法
K-means聚类之前,为什么要对数据做标准化?
2、标准回答
因为K-means基于距离计算,不同特征的量纲可能差异很大比如如年龄10-80,消费金额100-10000,量纲大的特征会主导距离计算,导致聚类结果偏差。标准化可以将每个特征转换为均值0、标准差1的形式,消除量纲影响,让每个特征拥有同等权重。
3、避坑指南
不要混淆标准化和归一化。标准化转换为均值0、标准差1,取值范围无固定限制,简单说,就是让不同尺度的数据能公平比较;归一化缩放到[0,1]区间。面试时要明确区分。
五、可视化与业务应用
(一)图表选择
1、面试问法
展示某产品一年内的销量趋势用什么图?比较不同产品的销量用什么图?
2、标准回答
展示趋势用折线图,能清晰反映数据随时间的变化规律。比较不同产品的销量用柱状图,能直观对比多个类别的数值大小。
3、避坑指南
避免用柱状图展示连续时间趋势。虽然柱状图也能展示,但折线图更能突出趋势变化,面试时要根据展示目的选择图表。
(二)A/B测试结果评估
1、面试问法
A/B测试后,实验组转化率提高2%,但p=0.06,你怎么决策?
2、标准回答
通常以p<0.05为统计显著的标准。p=0.06>0.05,说明结果不显著,不能拒绝原假设,实验组的提升可能是随机波动导致的。不建议急于全量上线,建议延长测试时间、增加样本量,待p<0.05后再做决策。
3、避坑指南
避免看到转化率提升就直接上线。忽略p值的提升可能是随机波动,会导致错误决策。面试时要强调p值判断和样本量补充的重要性。
(三)辛普森悖论
1、面试问法
为什么每个分组的转化率都提高了,总体转化率却下降了?
2、标准回答
这是辛普森悖论,核心原因是各组样本量的比例发生了较大变化,导致分组趋势与总体趋势相反。解决方法是用分层分析,检查各分组的样本量权重,而不是直接看总体数据。
3、避坑指南
面试时最好能举一个简单易懂的例子,比如医院治愈率、产品转化率,避免只说理论而不会结合实际。这是面试官判断你是否真正理解的关键。
六、进阶/工具类
(一)Python/Pandas常用操作
1、面试问法
用Pandas如何删除重复行、填充缺失值、分组聚合?
2、标准回答
删除重复行用drop_duplicates(),可通过subset指定列、keep指定保留哪一行。填充缺失值用fillna(),可填充具体值或均值、中位数。分组聚合用groupby()搭配agg(),比如df.groupby('分组列').agg({'聚合列':['sum','mean']})。
3、避坑指南
避免只会SQL不会Pandas,或反过来。数据分析岗位通常要求两者都会,面试时若能清晰说出两种工具的对应操作会更有竞争力。同时不要记错方法名。
(二)数据倾斜
1、面试问法
在Hive/Spark中,某个reduce任务特别慢,可能是什么原因?
2、标准回答
最常见的原因是数据倾斜,某个或某些key的数据量过大,导致该key对应的reduce任务需要处理远超其他任务的数据。常用解决方法就是加盐法,给倾斜的key加随机前缀打散;两阶段聚合,先局部聚合再全局聚合。
3、避坑指南
数据倾斜主要在大数据岗位面试中考察,非大数据岗位可简要了解。但如果能说出原因和解决方法,会是加分项。避免只说数据倾斜而不解释。
七、总结
以上20个知识点覆盖了数据分析面试的核心考点。其中统计学、SQL、数据分析思维是必考内容,数据处理和可视化是实操核心,进阶工具类是加分项。
面试时,回答要逻辑清晰、结合例子,避开上面提到的那些坑。尤其是p值、相关性vs因果、辛普森悖论这几个点,面试官特别喜欢挖坑。
希望这份整理能帮你少走弯路,顺利拿到心仪的offer。
可以把这20个知识点做成 flashcards,每天抽几个自问自答,练到脱口而出、逻辑清晰为止。面试时越从容,越能体现出你的专业度。
想转行、想涨薪、想靠数据能力站稳职场?CDA 数据分析师认证帮你一步到位。零基础也能学,从 Excel、SQL 到 Python、可视化,全链路实战,贴合互联网、金融、零售等多行业真实需求。
