当前位置: 首页 > news >正文

【CDA干货】数据分析面试常考20个核心知识点(附面试问法+标准回答+避坑指南)

作者:李诗怡,CDA二级持证人,大数据工程技术专业大三在读

一、统计学与概率

(一)描述性统计

1、面试问法

如果数据有异常值,用均值还是中位数更能代表整体水平?

2、标准回答

选择中位数。因为均值容易被极端值带偏,算出来的结果离大多数数据很远;而中位数只看排序后中间那个数,极端值再大再小也影响不到它。

3、避坑指南

切忌只回答用中位数三个字。面试官考察的是你对两种指标差异的理解,必须补充均值受极端值影响、中位数更稳健的原因,不然的话会显得专业度不足。

(二)标准差与方差

1、面试问法

两个班级平均分相同,但标准差不同,说明什么?

2、标准回答

标准差反映的是数据的离散程度。两个班级平均分相同,说明整体水平相当;但标准差不同,意味着成绩的分布差异不同,标准差越大,班级内学生成绩越分散,高分和低分差距越大;标准差越小,成绩越集中,整体水平更均衡。

3、避坑指南

不要混淆方差和标准差的实际含义。方差是标准差的平方,单位是原数据单位的平方,更难直观理解;而标准差的单位与原数据一致,更适合描述离散程度。面试时不要说反两者的含义。

(三)正态分布与68-95-99.7法则

1、面试问法

如果一个指标服从正态分布,均值100,标准差15,那么115到130之间的比例大约是多少?

2、标准回答

约13.6%。根据正态分布的68-95-99.7法则,数据落在均值±1个标准差范围内的比例约68%,落在均值±2个标准差范围内的比例约95%。因此,1σ(100+15=115)到2σ(100+30=130)之间的比例,就是(95%-68%)÷2=13.6%。

3、避坑指南

注意不要背错68、95、99.7这三个数字,也不要混淆±1σ、±2σ的范围计算。面试时最好先说法则内容,再计算比例,避免直接给答案而无推导过程。

(四)中心极限定理

1、面试问法

为什么样本量足够大时,样本均值的分布近似正态分布?

2、标准回答

这是中心极限定理的核心结论。不管总体本身服从什么分布是正态还是非正态,只要样本量足够大,样本均值的抽样分布就会接近于正态分布。而且,样本均值的均值等于总体均值,样本均值的标准差等于总体标准差除以样本量的平方根。

3、避坑指南

最常见的误区是误以为中心极限定理会让原始数据变成正态分布。实际是样本均值的抽样分布趋近正态,而非原始数据本身。面试时一定要明确这一点。

(五)假设检验与p值

1、面试问法

p=0.03是什么意思?能说原假设成立的概率是3%吗?

2、标准回答

不能。p值的核心含义是在原假设为真的前提下,观察到当前实验结果或更极端情况的概率。p=0.03表示,若原假设成立,出现当前结果及更极端结果的概率仅为3%。但绝对不能说原假设成立的概率是3%,p值衡量的是数据与原假设的一致性,不是原假设本身成立的概率。

3、避坑指南

这是面试官高频挖的坑。记住p值描述的是数据与原假设的矛盾程度,不是原假设成立的概率。回答时一定要明确区分。

二、SQL

(一)JOIN的区别与使用场景

1、面试问法

INNER JOIN和LEFT JOIN的结果有什么不同?

2、标准回答

两者的核心区别在于不匹配的行怎么处理。INNER JOIN只返回两个表中满足连接条件、相互匹配的行,不匹配的行会被过滤掉。LEFT JOIN会返回左表中的全部行,无论左表中的行是否能在右表中找到匹配项;若右表无匹配行,则右表对应的字段填充为NULL。

3、避坑指南

两个常见错误:一是说反左表和右表的作用;二是忘记提及右表无匹配时补NULL,这是LEFT JOIN与INNER JOIN最关键的区别之一。

(二)窗口函数

1、面试问法

分组排名时,相同分数下一个名次是跳过还是连续?

2、标准回答

三个函数的差异在于对相同值的排名处理

  • ●RANK:跳过重复名次,比如相同分数排名为1,2,2,4
  • ●DENSE_RANK:连续排名,不跳过,比如1,2,2,3
  • ●ROW_NUMBER:不考虑重复值,按顺序给每一行分配唯一连续编号,比如1,2,3,4
3、避坑指南

最好结合具体例子说明,避免只说概念而分不清三者的实际输出。尤其要区分RANK和DENSE_RANK的差异,这是面试官最常考察的点。

(三)GROUP BY + HAVING

1、面试问法

WHERE和HAVING的区别?

2、标准回答

两者的区别在于过滤时机和作用对象不同。WHERE在分组之前过滤行,作用于原始数据的每一行,只能过滤非聚合字段。HAVING在分组之后过滤结果,作用于分组后的聚合结果,只能过滤聚合字段。

3、避坑指南

常见的错误是在HAVING中使用非聚合字段,比如HAVING age > 18,而age未参与聚合,这种写法是错误的。面试时要明确区分分组前和分组后的过滤逻辑。

(四)执行顺序

1、面试问法

SELECT、FROM、WHERE、GROUP BY、HAVING、ORDER BY的执行顺序是什么?

2、标准回答

正确的执行顺序是:FROM → WHERE → GROUP BY → HAVING → SELECT → ORDER BY。FROM指定数据来源,WHERE过滤原始行,GROUP BY分组,HAVING过滤分组结果,SELECT筛选字段,最后ORDER BY排序。

3、避坑指南

很多候选人误以为SELECT先执行,这也是为什么很多人不理解不能在WHERE中使用SELECT字段别名,因为SELECT在WHERE、GROUP BY之后执行,此时别名还未生效。面试时要明确这个顺序。

三、数据分析思维

(一)漏斗分析

1、面试问法

某App从打开到支付的转化率只有10%,如何定位流失环节?

2、标准回答

通过漏斗分析拆解全流程。第一步,明确从打开App到完成支付的关键步骤,比如:打开App → 进入商品页 → 加入购物车 → 提交订单 → 完成支付。第二步,计算每一步的转化率。第三步,对比各环节转化率,找到转化率骤降的环节,那就是主要流失点,再进一步分析流失原因,比如支付流程繁琐、库存不足等。

3、避坑指南

避免只计算整体转化率而不拆解步骤。面试官考察的是你的拆解思维,只有拆解到每一步才能精准定位问题,只说整体转化率等于没回答。

(二)对比与拆解思维

1、面试问法

某月销售额下降了20%,你怎么分析?

2、标准回答

用先把公式拆开,再多个角度对比思维。第一步,拆解销售额公式销售额=用户数×转化率×客单价,判断是哪个因子导致的下降。第二步,多维度对比,比如同比、环比、分维度对比按渠道、地区、商品类别、用户群体拆分。第三步,结合业务场景比如促销结束、竞品冲击等,分析原因并给出解决方案。

3、避坑指南

避免直接给出单一原因而不使用拆解框架。面试官考察的是结构化分析能力,必须先拆解公式、再多维度对比、最后归因。

(三)相关性与因果

1、面试问法

数据显示,喝咖啡的人工作效率更高,能说咖啡提升效率吗?

2、标准回答

不能。数据只能说明两者存在相关性,不能证明因果关系。可能存在混淆变量,比如,需要熬夜加班的人更爱喝咖啡,而他们本来就任务重、不得不高效,并不是咖啡让他们变高效。要证明因果关系,需要通过A/B测试或其他因果推断方法。

3、避坑指南

这是数据分析思维的核心考点,避免直接下因果结论。面试时要强调混淆变量和因果推断方法,体现严谨性。

四、数据处理与清洗

(一)缺失值处理方法

1、面试问法

一列数据缺失30%,你会怎么处理?

2、标准回答

先分析缺失机制看是随机缺失还是非随机缺失,再根据缺失比例和数据类型选择方法。缺失30%不建议直接删除。用填充法,数值型数据可填充均值或中位数,分类数据填充众数,也可用模型预测缺失值。也可单独作为未知类别,保留缺失信息。

3、避坑指南

避免无脑用均值填充。均值填充只适用于数据分布均匀、无异常值的场景,若有偏态或异常值,用中位数更合适。同时,一定要先分析缺失机制。

(二)异常值识别

1、面试问法

如何识别一列数值中的异常值?

2、标准回答

常用的方法有两种。一是3σ法,适用于正态分布数据,超出均值±3个标准差的范围判定为异常值。二是IQR法,适用于任何分布,计算IQR=Q3-Q1,低于Q1-1.5×IQR或高于Q3+1.5×IQR的判定为异常值。也可通过箱线图等可视化方式识别。

3、避坑指南

避免直接删除异常值而不分析原因。异常值不一定是错误数据,可能是高价值VIP用户。面试时要强调先分析原因,再决定删除、修正或保留。

(三)数据标准化 vs 归一化

1、面试问法

K-means聚类之前,为什么要对数据做标准化?

2、标准回答

因为K-means基于距离计算,不同特征的量纲可能差异很大比如如年龄10-80,消费金额100-10000,量纲大的特征会主导距离计算,导致聚类结果偏差。标准化可以将每个特征转换为均值0、标准差1的形式,消除量纲影响,让每个特征拥有同等权重。

3、避坑指南

不要混淆标准化和归一化。标准化转换为均值0、标准差1,取值范围无固定限制,简单说,就是让不同尺度的数据能公平比较;归一化缩放到[0,1]区间。面试时要明确区分。

五、可视化与业务应用

(一)图表选择

1、面试问法

展示某产品一年内的销量趋势用什么图?比较不同产品的销量用什么图?

2、标准回答

展示趋势用折线图,能清晰反映数据随时间的变化规律。比较不同产品的销量用柱状图,能直观对比多个类别的数值大小。

3、避坑指南

避免用柱状图展示连续时间趋势。虽然柱状图也能展示,但折线图更能突出趋势变化,面试时要根据展示目的选择图表。

(二)A/B测试结果评估

1、面试问法

A/B测试后,实验组转化率提高2%,但p=0.06,你怎么决策?

2、标准回答

通常以p<0.05为统计显著的标准。p=0.06>0.05,说明结果不显著,不能拒绝原假设,实验组的提升可能是随机波动导致的。不建议急于全量上线,建议延长测试时间、增加样本量,待p<0.05后再做决策。

3、避坑指南

避免看到转化率提升就直接上线。忽略p值的提升可能是随机波动,会导致错误决策。面试时要强调p值判断和样本量补充的重要性。

(三)辛普森悖论

1、面试问法

为什么每个分组的转化率都提高了,总体转化率却下降了?

2、标准回答

这是辛普森悖论,核心原因是各组样本量的比例发生了较大变化,导致分组趋势与总体趋势相反。解决方法是用分层分析,检查各分组的样本量权重,而不是直接看总体数据。

3、避坑指南

面试时最好能举一个简单易懂的例子,比如医院治愈率、产品转化率,避免只说理论而不会结合实际。这是面试官判断你是否真正理解的关键。

六、进阶/工具类

(一)Python/Pandas常用操作

1、面试问法

用Pandas如何删除重复行、填充缺失值、分组聚合?

2、标准回答

删除重复行用drop_duplicates(),可通过subset指定列、keep指定保留哪一行。填充缺失值用fillna(),可填充具体值或均值、中位数。分组聚合用groupby()搭配agg(),比如df.groupby('分组列').agg({'聚合列':['sum','mean']})。

3、避坑指南

避免只会SQL不会Pandas,或反过来。数据分析岗位通常要求两者都会,面试时若能清晰说出两种工具的对应操作会更有竞争力。同时不要记错方法名。

(二)数据倾斜

1、面试问法

在Hive/Spark中,某个reduce任务特别慢,可能是什么原因?

2、标准回答

最常见的原因是数据倾斜,某个或某些key的数据量过大,导致该key对应的reduce任务需要处理远超其他任务的数据。常用解决方法就是加盐法,给倾斜的key加随机前缀打散;两阶段聚合,先局部聚合再全局聚合。

3、避坑指南

数据倾斜主要在大数据岗位面试中考察,非大数据岗位可简要了解。但如果能说出原因和解决方法,会是加分项。避免只说数据倾斜而不解释。

七、总结

以上20个知识点覆盖了数据分析面试的核心考点。其中统计学、SQL、数据分析思维是必考内容,数据处理和可视化是实操核心,进阶工具类是加分项。

面试时,回答要逻辑清晰、结合例子,避开上面提到的那些坑。尤其是p值、相关性vs因果、辛普森悖论这几个点,面试官特别喜欢挖坑。

希望这份整理能帮你少走弯路,顺利拿到心仪的offer。

可以把这20个知识点做成 flashcards,每天抽几个自问自答,练到脱口而出、逻辑清晰为止。面试时越从容,越能体现出你的专业度。

想转行、想涨薪、想靠数据能力站稳职场?CDA 数据分析师认证帮你一步到位。零基础也能学,从 Excel、SQL 到 Python、可视化,全链路实战,贴合互联网、金融、零售等多行业真实需求。

http://www.jsqmd.com/news/866595/

相关文章:

  • 仅需1张RTX 4090就能跑满DeepSeek-R1 67B?——本地化部署性价比极限压测(含量化精度损失对照表)
  • YOLOv8 ROS 2深度解析:机器人视觉感知系统的架构设计与实践指南
  • 在嵌入式开发中如何通过curl调用大模型API优化代码注释
  • 使用 vxe gantt 实现行拖拽排序
  • 工业吸尘器常见维修方法
  • 管道腐蚀评估机构排名
  • 做品牌生成式搜索占位,爱学AI GEO优化实测收录率超九成
  • 揭秘CPU-Z:比鲁大师更精准的硬件检测软件!CPU-Z下载、安装及使用全攻略
  • 反爬与绕过反爬技术总结
  • 2026最最最新的JAVA后端开发八股文
  • 武汉江岸区学钢琴哪家好?乐飞钢琴二十一年深耕 - 资讯纵览
  • 专业的郑州苹果手机维修联系电话口碑佳的
  • 如何快速下载并配置Taotoken的CLI工具实现一键接入
  • 专职会计太贵!长沙财务合规、税务顾问、财务顾问机构更省钱 - 讲清楚了
  • 2026年5月23日芝柏官方售后网点权威评测:基于真实体验与第三方佐证的核验报告 - 资讯纵览
  • 【OpenClaw 进阶配置】如何让 MiniMax 搜索替代 SearXNG 作为 Web Search provider
  • 烟台口碑好的装修公司怎么选?8步指南帮你避坑,烟台兴北居装饰值得参考
  • OBS Source Record插件深度解析:实现多源独立录制的进阶解决方案
  • 独立开发者如何借助Taotoken快速构建并迭代AI应用原型
  • ncmdumpGUI:Windows平台免费NCM文件转换终极指南
  • 浙江话语音合成紧急上线倒计时!3小时完成ElevenLabs定制Voice微调+合规备案(含方言伦理审查清单)
  • 软文营销媒体发稿效果倍增逻辑内容渠道平台三维协同运营解析
  • 视频号视频下载去水印方法全是坑?全网视频一键拿捏!2026封神玩法!
  • 办理科技成果评价对企业有何作用?有哪些流程?需要哪些材料?
  • 东南大学论文模板:8倍效率的学术排版革命
  • 精选!2026重庆黄金回收好口碑快速上门TOP5 渝北本土标杆引领安全变现 - 资讯纵览
  • 边际效应在数据分析中的应用
  • 2026年初中中考英语单词表1600词高频速记必背词汇表带音标听力音频默写PDF版
  • 旧账乱理不清?长沙财务合规、税务顾问、财务顾问机构专业梳理 - 讲清楚了
  • Kamailio 整数转字符串