当前位置：首页 > news >正文

《最终的数据解读指南》

news 2026/7/25 3:39:08

原文：towardsdatascience.com/the-ultimate-guide-to-making-sense-of-data-aaa121db1119?source=collection_archive---------0-----------------------#2024-06-04

来自 Uber、Meta 和高速成长初创公司的 10 年经验教训

https://medium.com/@twalbaum?source=post_page---byline--aaa121db1119--------------------------------https://towardsdatascience.com/?source=post_page---byline--aaa121db1119-------------------------------- Torsten Walbaum

·发布于 Towards Data Science ·阅读时长 14 分钟·2024 年 6 月 4 日

–

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/bca8367f47ab5739a6ae2fedab19128e.png

图片由作者提供；通过 Midjourney 创建

数据可以帮助你做出更好的决策。

不幸的是，大多数公司在收集数据方面比在解读数据上做得更好。他们声称拥有数据驱动的文化，但实际上，他们在做决策时更多依赖经验。

作为一名数据科学家，你的工作是帮助商业利益相关者理解和解读数据，以便他们能做出更明智的决策。

你的影响力并非来自你所做的分析或构建的模型，而是来自你帮助推动的最终商业成果。这是资深数据科学家与初级数据科学家的主要区别。

为了帮助实现这一点，我根据在 Rippling、Meta 和 Uber 的经验，整理了这本逐步操作手册，帮助将数据转化为可操作的洞察。

我将涵盖以下内容：

应该跟踪哪些指标：如何为你的业务建立收入方程式和驱动树
如何跟踪：如何设置监控并避免常见的陷阱。我们将讨论如何选择合适的时间范围，处理季节性问题，掌握分 cohort 数据等！
提取洞察：如何以结构化和可重复的方式识别问题和机会。我们将介绍你最常遇到的趋势类型，以及如何理解它们。

听起来很简单，但问题在于细节，让我们一一深入探讨。

第一部分：应该跟踪哪些指标

首先，你需要弄清楚应该跟踪和分析哪些指标。为了最大化影响力，你应该专注于那些实际推动收入的指标。

从高层次的收入公式开始（例如，“收入 = 展示量 * CPM / 1000”对于基于广告的业务），然后进一步拆解每个部分，以了解潜在的驱动因素。具体的收入公式取决于你所从事的业务类型；你可以在这里找到一些最常见的公式。

结果驱动树的结构是，输出在顶部，输入在底部，它告诉你什么因素推动了业务的结果，以及你需要构建哪些仪表盘，以便进行端到端的调查。

示例：这是一个（部分）基于广告的 B2C 产品的驱动树：

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/71eea8fb05dacfab74cbdf201dc991a8.png

作者提供的图片

理解领先指标和滞后指标

收入公式可能让人觉得输入立即转化为输出，但现实中并非如此。

最明显的例子是市场营销与销售漏斗：你生成潜在客户，它们转化为合格的机会，最终达成交易。根据你的业务和客户类型，这个过程可能需要好几个月。

换句话说，如果你在查看一个结果指标，例如收入，通常是在查看你几周或几个月前采取的行动的结果。

一条经验法则是，你在驱动树中走得越远，某个指标就越可能是领先指标；走得越近顶部，你处理的就越可能是滞后指标。

定量分析滞后

查看历史转化窗口非常值得，这样可以帮助你理解你所处理的滞后程度。

这样，你就能更好地向回溯（如果你看到收入波动，你就知道该追溯多远以查找原因）以及向前预测（你会知道看到新举措的影响需要多长时间）。

根据我的经验，制定经验法则（例如，平均需要一天还是一个月时间让新用户变得活跃）能够帮助你获得 80%到 90%的价值，因此不必过度设计这一过程。

第二部分：设置监控并避免常见的陷阱

所以你有了驱动树；那你如何利用这个来监控业务的表现并为利益相关者提取见解呢？

第一步是设置仪表盘来监控关键指标。我不会深入比较你可以使用的各种 BI 工具（以后我可能会在单独的文章中做这个比较）。

我在这篇文章中谈到的所有内容，都可以轻松地在 Google Sheets 或任何其他工具中完成，因此你选择的 BI 软件不会成为限制因素。

相反，我希望集中讨论一些最佳实践，帮助你理清数据并避免常见的陷阱。

第三部分：从数据中提取洞察

所有这些数据都很棒，但我们如何将其转化为洞察呢？

您不会有时间定期深入研究每个指标，因此可以通过优先查看最大的差距和关键变化来管理您的时间：

团队在哪些地方未能达到目标？您在哪些地方看到了意外的超额表现？
哪些指标在下降？哪些趋势正在反转？

一旦您选择了一个感兴趣的趋势，您需要深入挖掘并找出根本原因，以便您的业务合作伙伴能提出有针对性的解决方案。

为了为您的深入分析提供结构，我将逐一介绍您可能遇到的关键指标趋势类型，并根据实际经验为每种类型提供具体示例。

1. 净中性变动

当您看到某个指标剧烈波动时，首先应该向上查看驱动因素树，而不是直接向下。这样，您可以看看这个数字是否真正推动了您和团队最终关心的事情；如果没有，找出根本原因的紧迫性就会降低。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/682a4f033f9adb65765963ce271a2ee3.png

图片由作者提供

**示例场景：**在上面的图片中，您看到网站上的访问到注册的转化率大幅下降。与其惊慌失措，您查看了总注册数，发现该数字保持稳定。

事实证明，平均转化率的下降是由于网站上低质量流量激增造成的；而您的“核心”流量表现保持不变。

2. 分母与分子

在处理比例指标（每个活跃用户的展示量、每个共享乘车司机的行程数等）时，首先检查是分子还是分母发生了变化。

人们往往认为是分子发生了变化，因为那通常是我们在短期内试图提升的参与度或生产力指标。然而，很多情况下情况并非如此。

示例包括：

您看到每位销售代表的潜在客户数量下降，因为团队刚刚加入了一批新员工，而不是因为您存在需求生成问题。
每小时每个 Uber 驾驶员的行程下降，并不是因为乘客请求减少，而是因为团队提高了激励措施，更多的司机上线了。

3. 隔离/集中趋势

许多指标趋势是由只发生在产品或业务的特定部分的因素推动的，聚合的数字并不能讲述完整的故事。

隔离根本原因的一般诊断流程如下：

步骤 1：继续分解指标，直到你隔离出无法进一步分解的趋势。

类似于在数学中每个数字都可以分解成一组质数一样，每个指标都可以进一步分解，直到达到基本的输入。

通过这样做，你能够将问题隔离到司机树的特定部分，从而更容易定位问题所在，并决定应对措施。

步骤 2：对数据进行分段，以隔离相关趋势

通过分段，你可以找出是否是业务的某个特定领域出了问题。通过在以下维度上进行分段，你应该能够发现超过 90% 的问题：

地理位置（地区/国家/城市）
时间（月份中的时间、星期几等）
产品（不同的 SKU 或产品表面（例如 Instagram Feed 与 Reels））
用户或客户人口统计（年龄、性别等）
单一实体/行为者（例如销售代表、商家、用户）

让我们来看一个具体的例子：

假设你在 DoorDash 工作，看到波士顿的完成送货数量相比上周下降。与其集思广益寻找增加需求或提升完成率的方法，不如先尝试隔离问题，这样我们就能制定更有针对性的解决方案。

第一步是分解指标“完成的送货”：

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/725ab83453c85ff1b917d28038ee02a4.png

作者提供的图片

根据这个驱动树，我们可以排除需求端的问题。相反，我们看到最近在波士顿，我们在寻找司机接单方面遇到了困难（而不是餐厅和快递员交接或食物送达方面的问题）。

最后，我们将检查这是否是一个广泛的问题。在这种情况下，一些最有前景的切入点是查看地理位置、时间和商家。商家数据表明这个问题是广泛存在的，影响了许多餐厅，所以它并不能帮助我们缩小范围。

然而，当我们为指标*“没有找到快递员的送货请求”*创建时间和地理位置的热图时，我们发现大部分问题发生在波士顿郊区的夜间：

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/1fc216f3708646d75b22e561e61eab11.png

作者提供的图片

我们该如何处理这些信息？能够像这样 pinpoint 问题，能够让我们在这些时间和地点部署有针对性的快递员招募工作和激励措施，而不是把它们撒播到整个波士顿。

换句话说，隔离根本原因使我们能够更有效地部署资源。

你可能遇到的其他集中趋势示例：

大多数在线游戏中的游戏内购买来自少数“鲸鱼玩家”（所以团队会将其留存和参与度的努力集中在这些玩家身上）
大多数支持工单的升级到工程团队，是由少数支持人员引起的（这为公司提供了一个有针对性的杠杆，通过培训这些支持人员来释放工程团队的时间）

4. 混合变化

诊断表现时最常见的困惑来源之一就是混合变化和辛普森悖论。

混合变化只是总人口组成的变化。辛普森悖论描述了这样一种反直觉的现象：你在总人口中看到的趋势，在查看子组件时消失或反转（反之亦然）。

这在实践中是什么样的呢？

假设你在 YouTube 工作（或者其他任何有广告业务的公司）。你发现收入正在下降，当你深入分析数据时，发现 CPM 已经下降了一段时间。

CPM 作为一个指标无法进一步分解，因此你开始对数据进行细分，但却难以识别根本原因。例如，所有地区的 CPM 看起来都很稳定：

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/4fc5aa06d0bd34067f964b1d609b1638.png

图片由作者提供

这里就是混合变化和辛普森悖论的体现：每个单独地区的 CPM 保持不变，但如果你查看按地区划分的印象组成，你会发现印象的组合正在从美国转向亚太地区。

由于亚太地区的 CPM 低于美国，整体 CPM 正在下降。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/2b773a0b20d8fbbae1cf01570f4787a0.png

图片由作者提供

再次强调，了解准确的根本原因可以提供更有针对性的响应。根据这些数据，团队可以尝试在高 CPM 地区重新激发增长，考虑为亚太地区提供更多的货币化选项，或通过在大亚太市场中大量增加印象量来弥补单个印象的较低价值。

最后的思考

记住，数据本身没有价值。只有当你用它来生成洞察或为用户或内部利益相关者提供建议时，它才变得有价值。

通过遵循一个结构化框架，你将能够可靠地识别数据中的相关趋势，按照上述提示，你可以区分信号与噪声，避免得出错误的结论。

查看全文

http://www.jsqmd.com/news/860350/

vSAN集群盘亮黄灯？自动迁移数据，不用人工干预！

MySQL(库的操作)

2026太阳能庭院灯厂家实力测评：优质品牌推荐高配置长寿命首选 - 资讯纵览

egrep、sed、awk 简介与用法

python高校学生党员信息管理系统_829h59n3

2026微软大规模钓鱼攻击深度解析：AiTM令牌劫持如何绕过MFA？附企业级防御代码与配置

CISA KEV 2026年5月重磅更新：5个“活化石“漏洞+2个Defender零日，政企内网面临双重暴击

从一道NOI题目看凯撒密码的实战：手把手教你用C++解密‘加密的病历单’

为什么你需要英雄联盟Akari助手：3个步骤提升游戏效率的完整指南

别再死记硬背快捷键了！用这5个Blender 4.0核心操作，10分钟上手你的第一个模型

用树莓派+USB摄像头+总线舵机，手把手教你做个能自动抓取小球的机械臂（附完整Python代码）

故障停机降为零：变频器厂家助力化工企业年省百万 - 资讯纵览

稳定运行8年无故障：光纤收发器厂家标杆案例解析 - 资讯纵览

从零到出版级作品，包豪斯风格AI绘图全流程拆解，含12个可复用提示模板与字体/网格参数表

CLK 400米标准跑道声光系统圆满交付

毕业论文神器！高效论文写作全流程AI论文写作工具推荐（2026 最新）

BWH Hotels 6个月暗线入侵：全球4000+酒店预订系统沦陷的技术复盘与行业警示

别只画排针了！用嘉立创专业版给你的STM32板子加个酷炫Logo（丝印图片导入全指南）

变频器厂家常见问题解答（2026最新专家版） - 资讯纵览

别被忽悠了！2026实测好用的AI写作辅助平台|实测必入避坑版

IPBan服务器防护解决方案：智能拦截恶意IP的实战指南

2026年雨水收集模块品牌推荐：全场景适配头部品牌综合测评 - 资讯纵览

AI写作辅助网站的使用规范：如何让AI生成内容通过严格学术审查

如何在浏览器中快速构建专业的BIM查看器：xeokit-bim-viewer终极指南

想试AI做千川素材又怕花冤枉钱？易元AI“千川专版”免费生成50条，跑量再付费

华三交换机上配置静态黑洞路由，5分钟搞定DDoS攻击流量丢弃

（良心整理）亲测靠谱的AI论文网站，毕业生收藏备用

2026微信投票制作指南，中正投票+腾讯投票双平台详细指南 - 资讯纵览

IPPE数据传输APO--传输PDS到APO

来自 Uber、Meta 和高速成长初创公司的 10 年经验教训

相关文章：