杜克大学商业分析笔记(全)
001:关于本专业课程 🚀

欢迎来到激动人心的商业数据分析领域。我在此行业工作了20年,从未感到厌倦。你也不会感到厌倦。随着全球大数据分析文化的真正潜力得以实现,未来20年将更加令人兴奋。
我是一名研究大脑中大数据的神经科学家。我现在处理各种数据集,并将我们在大脑研究中发现的统计技术和问题解决技术应用于商业领域。这对我来说非常有趣,因为事实证明,由于大数据生态系统,我们在科学领域面临的许多分析挑战,现在也正是商业领域面临的分析挑战。
我们在科学领域发表论文所使用的技能,与向高管汇报所使用的技能是相同的。这一切都关乎批判性思维、数据整理和沟通。
我曾作为一名发明家和企业家,创造了新的数据分析技术。我也曾作为风险投资人,帮助他人实现他们在商业分析领域的梦想。在过去的六年里,我一直在杜克大学全球知名的工程管理硕士项目中担任教师。
我们的重点是实践性,即如何帮助你利用数据创造积极的变化。
在商业世界中,大数据只是一个简称,它指的是我们过去所有需要记录的东西,比如产品发票、医生处方,现在都电子化并存储在计算机中。这意味着它们可以被搜索、探索、分析,甚至可能被利用。
电子数据的存储成本已经变得非常低,以至于丢弃数据并不能节省任何成本。这些数据中的大部分最终可能被证明是无用的,但聪明的人们将在未来20年里,不断寻找新的方法来利用其中的一部分,创造具有经济价值的产品和服务,或者为他们已经销售的产品和服务,提取暂时的或持久的信息优势,即一个有意义的竞争优势。
任何处于竞争市场中的商业性盈利公司,如果不将商业数据分析的最佳实践融入其运营中,在未来五年内都无法保持盈利,甚至无法生存。
要高效利用所有这些大数据,需要理解一个数据问题的完整生命周期。这个生命周期包括收集数据、清理数据、分析数据以及向人们传达其含义。
世界不仅需要能够驾驭整个周期的人,还需要能够整合和翻译所有参与其中的人员的语言的人,这些人包括从程序员到统计学家,再到沟通专家和业务领域专家。
信不信由你,这类人曾被大众媒体称为“独角兽”。这是因为很难想象一个人能掌握所有这些技能。
然而,我们在这里要告诉你,所有这些技能都可以被一个人掌握。本专业课程旨在帮助你迈出第一步,成为你自己的大数据“独角兽”。
当你完成最终的毕业项目时,你将掌握基本的商业概念和解决问题的技能,以帮助你在大数据生态系统中游刃有余。同时,你也会掌握商业分析最重要的工具,包括在Excel中进行数据建模、使用Tableau理解和沟通数据,以及使用SQL组装数据。
你们中的一些人可能已经掌握了部分内容,但我们感兴趣的是弥合差距,帮助你们都成为“翻译者”。我们希望帮助没有技术背景的商业人士熟悉数据,也希望帮助有技术背景的人学会提出最佳类型的商业问题。
我们都相信,无论你的技术背景如何,大数据分析都是你能从事的最有价值的领域之一。最激动人心的发展还在未来。
感谢你与我们一同踏上这段旅程。

在本节课中,我们一起学习了商业数据分析领域的广阔前景和核心价值。我们了解到,大数据本质上是商业活动的电子化记录,其分析生命周期涵盖收集、清理、分析和沟通。课程的目标是培养能够驾驭整个周期、连接技术与商业的“翻译者”或“独角兽”型人才。无论你的起点如何,掌握Excel、Tableau和SQL等工具,结合批判性思维,都将为你在这个充满机遇的领域取得成功奠定基础。
002:课程引言 🎯

在本节课中,我们将概述完成《Excel 到 MySQL:商业分析》课程后,你将能够掌握的核心技能与知识。课程旨在帮助你从海量数据中识别关键商业指标,理解数据分析在不同行业和角色中的应用,并为从事商业分析或数据科学相关职业做好准备。
课程完成后的能力目标 📈
完成本课程后,你将能够达成以下目标。
模块二:掌握商业指标
上一节我们介绍了课程的整体目标,本节中我们来看看第一个核心模块。完成模块二后,你将能够做到以下几点。
以下是模块二的具体学习成果:
- 你将能够区分哪些数字对企业的健康与成功至关重要(即商业指标),并将其与企业日常面临的大量其他实用性较低的数据区分开。
- 你将能够对任何商业指标进行初步分类。
- 你将能够判断一个指标属于三大类商业数据中的哪一类:收入、盈利能力或风险。
- 你将能够区分传统指标与我们在此所称的动态指标。动态指标通常较新,通过快速改进业务流程,具有引领创新的最大潜力。
模块三:理解数据岗位与公司类型
在掌握了商业指标的分类后,我们接下来需要了解这些指标由谁来分析和应用。完成模块三后,你将能够做到以下几点。
以下是模块三的具体学习成果:
- 你将能够预见不同类型的企业需要哪些以数据为中心的员工。
- 你将了解在各类公司中常见的职位名称和技能要求,以及不同角色的员工通常如何协作。
- 你将直接聆听从事数据相关工作的商业分析师、商业数据分析师、数据科学家和高级软件工程师的分享。
- 我们将把所有公司分为五类,并思考每类公司如何应对大数据的影响。
- 你甚至能够使用一份包含20个项目的清单,为你自己的公司或任何其他公司单独评分,以确定其接纳大数据分析文化的程度。
模块四:应用最佳实践分析指标
了解了“谁”来分析数据之后,我们来看看“如何”进行有效分析。完成模块四后,你将能够做到以下几点。
以下是模块四的具体学习成果:
- 你将能够识别当前分析商业指标的企业最佳实践。
- 你将学习一些简单但强大的公式,以从这些指标中提取最大价值。例如,计算客户生命周期价值的简化公式:
CLV = (平均购买价值 × 购买频率) × 客户平均生命周期。 - 我们将研究一个至关重要的横向业务领域——网络营销,它几乎与商业世界中的每一家公司都相关。
- 我们将探索一个代表性的垂直市场——与投资和投资组合管理相关的金融服务,以便你熟悉一组指标如何协同工作来定义一个市场领域。
课程总体目标与价值 💎
本节课中我们一起学习了各模块的具体目标。本商业分析专项课程的总体目标是,如果你选择从事商业分析师或商业数据分析师的工作,或计划开启通往数据科学家的职业道路,亦或只是希望在数据于业务流程中扮演越来越核心角色的当下,在当前职位上更有效率,本课程都将为你取得成功做好准备。
我们认为,无论你的角色是什么,学习如何像商业分析师或商业数据分析师一样高效工作都非常有用。世界似乎正被数据的海洋淹没,其中许多数据并无太大用处。
学完本课程后,你将能够从这片海洋中找到宝藏——识别并利用那些让数据驱动型公司蓬勃发展的关键指标。
003:指标如何帮助我们提出正确问题 📊

在本节课中,我们将探讨商业分析师的核心价值,并学习如何利用“指标”来提出正确的问题,从而驱动有效的商业决策。
概述
商业分析师或商业数据分析师最高且最佳的用途是什么?答案是:找出正确的问题来提问。然后,在有限的时间和资源内,尽可能找到最佳的答案。同时,确保你的答案能产生实际影响,即将其转化为具体的行动号召,并使用视觉隐喻和非技术性语言,将具体的建议行动传达给相关的决策者。
什么是“正确的问题”?
那么,什么才是“正确的问题”呢?答案是:为了增加收入、最大化利润或降低风险,我们现在能够且应该对业务流程做出何种改变?
这里的关键词是“现在”。接下来,我们将详细探讨“现在”的不同含义。
理解“现在”的含义
“现在”一词在商业决策中有多个层面的含义。以下是几种不同的解释,从最理想的情况到更实际可行的方案。
-
理想情况:实时优化
最理想的答案是:公司已经建立了实时计算机化系统。这些系统通过调整我们对客户和市场输入的响应,来优化某些动态指标,其处理延迟或等待时间不超过零点几秒。公式可以表示为:决策 = f(实时数据输入)。 -
次优方案:及时响应
当无法实现计算机化自动响应时,次优方案是“及时响应”。这意味着由人工来响应单个客户,并且该员工能够访问该客户与公司互动的完整历史记录,无论是通过购买、客服电话,还是在网站上的行为等。 -
实用方法:基于测试的迭代
第三种方案虽然不如前两者即时,但仍然非常有效。即我们所建议的变更无法一夜之间完成,但可以在经过实证测试并证明有效后尽快实施。我们通过A/B测试来进行验证:每次只对网站做一个小改动,创建A和B两个不同版本,然后比较哪个版本表现更好。通常,一项A/B测试可以在建议提出后的30天内开始,并且一旦收集到足够数据确定一个选择明显优于另一个,就可以实施建议的变更。其核心逻辑是:变更决策 = 基于(版本A表现数据 > 版本B表现数据)。
指标的核心作用
上一节我们探讨了决策的时效性,本节中我们来看看“指标”在其中扮演的核心角色。
指标是特殊的数字,它们帮助我们提出并回答正确的商业问题:我们应该做出什么决策?我们现在应该改变什么流程?
指标是那些当我们改变业务流程时,能够对其产生影响的数据。为了更清晰地理解,我们来看一个例子。
指标 vs. 固定事实
理解什么是指标,同样需要明白什么不是指标。以下通过一个对比来说明。
假设有一家扎根于北卡罗来纳州的实体服装零售店,该州的销售税率为4.75%。
- 销售税不是指标。我们无法通过改变业务流程来影响它。它对我们来说就像一个固定事实,类似于天气。
- 广告点击率是一个指标。例如,在特定网站上看到我们的广告后,点击链接访问我们主页的用户百分比。这个数字会随着广告内容和外观的改变、广告投放时段或网站的变化而不断变化。我们可以通过优化这些因素来直接影响这个百分比。

总结

本节课中,我们一起学习了商业分析的核心目标是提出正确的问题。我们明确了“正确的问题”通常围绕“立即优化业务流程”展开,并探讨了“立即”的三种不同实现方式:实时系统、及时响应和A/B测试。最重要的是,我们定义了指标——那些能被我们行动所影响的特殊数字——是连接问题与答案、驱动有效商业决策的关键工具。通过区分指标(如点击率)和固定事实(如税率),我们能更精准地聚焦于可优化、可行动的领域。
004:区分收入、盈利能力和风险指标 📊

在本节课中,我们将学习如何将商业指标分为三大类别:收入指标、盈利能力指标和风险指标。理解这些类别的区别,有助于我们更清晰地分析企业的健康状况和运营表现。
概述
所有商业指标都可以归入三大类别:收入指标、盈利能力指标和风险指标。区分一个具体指标属于哪一类,一个有效的方法是思考公司里哪些人依赖这些信息并会主动索取它。
收入指标 💰
收入指标与销售和市场营销活动直接相关。它们是外向型的指标,告诉我们公司在营销和销售其产品方面表现如何。
以下是销售和营销团队通常关心的收入指标:
-
销售团队(通常由销售副总裁领导)希望了解:
- 在特定时间段内,每种产品售出了多少单位。
- 与去年同期或前年同期相比的销售情况。
- 按地区、产品和客户类型(新客户 vs. 回头客)划分的销售数据。
- 销售漏斗的状况,即已识别的潜在客户在逐步转化为购买者的过程中所处的阶段。
-
营销团队(通常由营销副总裁领导)希望了解:
- 营销活动的效果如何。
- 有多少人看到了特定的广告、营销邮件或邮寄优惠。
- 响应率是多少。
核心概念:任何与销售直接或间接相关的内容都属于收入指标。
盈利能力指标 📈
上一节我们介绍了外向型的收入指标,本节中我们来看看内向型的盈利能力指标。这些指标与公司创造并向客户交付产品和服务的流程效率有关。
以下是公司内部负责运营的人员(在大公司中通常由首席运营官领导)所关注的效率指标:
- 以未售出库存形式占用了多少现金。
- 由于损坏或浪费导致多少产品无法销售。
- 公司因生产或库存不足而无法满足紧急客户需求、从而损失销售机会的频率。
- 生产线上有多少比例的产品因缺陷被拒收。
- 每单位产品在可变成本、原材料和劳动力上的花费。
核心概念:盈利能力 = 收入 - 成本。即使一家公司收入庞大且增长迅速,如果无法高效交付产品,也无法实现盈利。相反,收入增长空间有限的老牌公司,通常可以通过专注于提高运营效率来实现盈利能力的显著增长。
风险指标 ⚠️
最后,我们来看看风险指标。这些指标与追踪并尽可能减少公司面临的诸多潜在危险有关。
风险指标的例子包括:
- 净现金消耗率:如果公司每月将净现金流的很大一部分用于支付债务利息,那么即使是外部冲击(如经济衰退)导致的收入小幅下降,也可能使公司资不抵债并倒闭。跟踪公司以当前消耗率还能生存多少个月至关重要。
- 客户流失率:对于采用订阅制收入模式的公司,如果客户流失率(新订阅者在一年内取消订阅的比率)非常高,公司将面临风险。随着时间的推移,从未成为客户的目标人群会越来越少,维持收入增长甚至保持稳定将变得不可能。
- 金融业特定指标:例如,银行会追踪其面临的潜在客户违约风险敞口,以及预计在未来六个月内违约或当前已违约的客户比例。基金经理则使用回报波动率和最大历史回撤(从历史最高点的最大跌幅)作为其投资组合风险敞口的代理指标。
核心概念:大多数风险指标都以某种方式与杠杆相关。任何生存依赖于偿还大量借款能力的实体,都会因任何不幸而面临被放大的风险。
总结与记忆技巧 🧠
本节课中,我们一起学习了商业指标的三大类别:
- 收入指标:面向乐观的外向者(销售与营销)。
- 盈利能力指标:面向一丝不苟的完美主义者(运营与生产)。
- 风险指标:面向掌握信息的怀疑论者(风控与投资)。

一家优秀的公司会善用这三种特质,并同时追踪这三类指标,从而获得全面的商业洞察。
005:区分传统指标与动态指标 📊

在本节课中,我们将学习如何区分传统商业指标与动态商业指标。理解这两者的差异对于进行快速、有效的商业决策至关重要。
传统商业指标概述 📄
传统商业指标包括标准的财务和管理会计类别,例如季度净现金流报表、损益表以及资产负债表项目(如股东权益)的变化。
这些传统商业指标主要起源于纸笔记录的事后报告。其中一些指标在历史上也曾是创新之举,例如大约500年前意大利佛罗伦萨的银行家发明的复式记账法。
基于这些指标做出的商业决策通常需要经过长时间的审议,有时甚至需要数月到数年的时间。它们仍然极其重要,值得我们深入研究,但现代商业环境往往要求更快的反应速度。
动态商业指标的定义与特征 ⚡
上一节我们介绍了传统指标的特点,本节中我们来看看动态商业指标。我们想要的是动态商业指标。

动态商业指标的定义和传达方式应能体现紧迫感。这类指标旨在解决正确的问题:我们现在可以对业务流程做出哪些改变,以增加收入、最大化利润或降低风险?
一个商业指标要成为动态指标,需要具备两个属性。
以下是第一个属性:

- 指标是否会在一个月或更短的时间间隔内发生显著变化? 如果不是,那么它就不够动态。例如,一家商场内的独立零售店为其三年期房地产租赁支付的月租金,当然是一个与其效率和盈利能力相关的商业指标,但它不是一个动态商业指标。追踪它没有意义,因为它短期内不会改变。

以下是第二个属性:
- 公司是否可以采取具体行动,在短期内显著影响该指标? 如果不能,那么该指标就不适合进行动态追踪。一个指标是否动态也可能取决于具体的商业背景。
动态指标的商业背景依赖性 🏪
为了理解商业背景如何影响指标的动态性,让我们来看一个例子。
如果前面提到的拥有1000家门店的零售连锁店既不新增也不关闭门店,只是续签现有空间的租约,且旧租约已有预先商定的续约条款,那么要显著影响每平方英尺的平均月租金将非常困难。
另一方面,如果该零售连锁店公开宣布将关闭其在美国25%的零售门店(正如Gap公司在2015年6月所做的那样),它就可以向房东提出新的方案:要么我们在当前租约结束时离开,你需要寻找可能支付更低租金的新租户;要么我们现在就重新谈判租约条款。

在这种情况下,新谈判租约的每平方英尺平均月租金对Gap公司而言就是一个动态指标。这是一个可以节省成本的领域。这也解释了为什么将所有坏消息一次性公布通常是一种良好的商业策略。
动态指标的敏感性与影响力 📈
商业变革对指标能产生多大影响,是判断其是否为动态指标时需要观察的另一个重要方面。
如果指标“噪音”很大,意味着有许多因素在影响它。如果指标“敏感”,则意味着它能非常具体地反映我们所采取行动的效果。
像季度收入这样的传统指标受到数十种不同因素的影响,其中许多完全超出了我们业务的控制范围。如果我们的大多数客户是销售周期很长的政府机构,那么我们推出的出色新广告活动甚至可能不会在季度收入指标中显现出来。
总收入始终是一个汇总数字。正如Ki metrics网站上所说,汇总数据某种程度上是毫无价值的。而动态指标是敏感的。我们流程中的微小变化可以带来巨大的影响。
例如,将商品加入在线购物车并最终完成购买的用户比例,对平均页面加载时间极其敏感。研究表明,加载时间超过3秒的页面促成销售的可能性远低于加载时间少于3秒的页面。40%的网络用户会完全放弃加载时间超过3秒的网页。
这就是为什么存在一个专门致力于“边缘缓存”的行业,例如Akamai等内容交付网络。零售店付费让这些网络在全球各地靠近客户的位置本地存储其网站副本,从而节省宝贵的几秒加载时间。
顺便提一下,通过我的杜克大学学生最近为一家网站性能监控公司做的项目,我们了解到在移动设备上,许多零售公司的网页加载需要20秒或更长时间。看来许多全球零售公司尚未从世界各地的远程位置测试其基于移动设备的加载时间。
如果你的公司尚未在所有活跃的全球市场中,对移动设备进行加载时间性能测试,那么应该立即开始。
总结 🎯

本节课中我们一起学习了传统商业指标与动态商业指标的关键区别。传统指标(如季度财务报表)源于历史报告,变化缓慢,决策周期长。动态指标则具备两大特征:在短周期(≤1个月)内显著变化,以及公司可通过具体行动在短期内显著影响它。动态指标对业务流程的微小变化非常敏感(例如页面加载时间对电商转化率的影响),能直接指导快速行动以提升收入、利润或降低风险。理解并选择正确的动态指标,是现代商业分析的核心。
006:定义 ☕

在本节课中,我们将通过一个案例研究,来阐明盈利能力指标与现金流指标之间的关键区别。案例研究的第一部分,我们将讨论一些财务定义。
商业分析并非财务会计,但它确实会借鉴一些会计概念来构建其指标。我们将简要介绍,在接下来的约10分钟里,我会引导你了解所有需要掌握的、理解核心商业指标所必需的财务会计术语和概念。
我将通过一个我正在筹划的初创企业——埃格斯烘焙咖啡——的例子来解释这些最重要的术语。
商业模式概述


埃格斯烘焙咖啡计划批量购买生咖啡豆,进行烘焙和包装,然后以更高的价格批发销售给一家连锁超市。


在下一个视频中,我们将探讨当埃格斯烘焙咖啡面临不同类型的增长情景时会发生什么。我们将展示,即使从利润角度看情况良好,快速增长情景在现金流方面实际上可能非常危险。现金流和利润是两个截然不同的概念,因此公司的财务报告会分别讨论它们。

利润体现在损益表中,而现金流则体现在现金流量表中。不盈利的公司可以生存并蓬勃发展数年甚至数十年,例如亚马逊。但那些耗尽现金的不盈利公司,则会像E Toys、pets.com或Webvan一样消失得无影无踪。
即使是利润丰厚的公司,如果无法足够快地满足其短期现金义务,也可能倒闭,就像2008年秋天世界上最大、最盈利的保险公司AIG在几天内发生的情况一样。盈利的公司实际上也经常因为耗尽现金而倒闭。引发此类灾难最常见的原因之一就是不受控制或计划外的销售增长。成功来得太快、太多,可能会毁掉你。
我将通过埃格斯烘焙咖啡的两种不同收入情景来说明这种危险:情景1,涉及安全、稳定的收入;情景2,快速增长、令人兴奋但最终致命的销售增长。作为你的老师,如果我不在开始做任何其他事情之前,确保你的公司永远不会因为无法追踪正确的商业指标而耗尽现金,那我就没有尽到我的职责。

所有关于埃格斯烘焙咖啡商业模式的假设、本视频及下一个视频中讨论的财务术语和概念,以及案例研究中的两种情景,都在一个详细的Excel电子表格中列出,你可以下载。我建议你在观看视频后、参加本课测验前,仔细复习电子表格中的材料。

埃格斯烘焙咖啡的商业模式
如前所述,我正在创办一家咖啡烘焙企业。我的商业模式很简单,我认为它肯定会成功。我有个朋友在一家大型零售连锁超市担任采购员,他承诺以每磅6美元的价格(批发价)从我这里购买我能生产的所有埃格斯烘焙咖啡。

我将与这家连锁超市签订一份供应合同,同意按需交付咖啡,但如果我未能按时足额交付,将面临财务处罚。不过,这个价格保证我每磅都能获得利润。我的朋友认为他的大型连锁超市可以销售无限量的咖啡。我们将把这种咖啡作为手工制作、正宗的产品进行营销,由我个人在北卡罗来纳州达勒姆市精心烘焙。

收入与付款条件
连锁超市平均在收到商品60天后向其所有供应商(包括我)付款。这给了他们时间自己销售商品。这些是常见的条款,称为净60天。我预计从我收到生豆到完成烘焙、包装和交付的平均时间为30天。

成本结构
我已经找到了一个批量采购高品质生咖啡豆的来源,价格为每磅2美元。他们的条款是货到付款。也就是说,豆子送到我家门口时我就付款。
可变成本
可变成本是指我烘焙的豆子越多,成本就越高的项目。最明显的例子就是我刚才提到的生豆本身。我每磅支付2美元,如果多买一磅,就再付2美元。这就是可变成本。
对我来说,其他生产可变成本包括烘焙过程中使用的燃料、包装豆子的纸质包装、帮助将生豆装入烘焙机和将烘焙好的包装豆装上送货卡车的工人的小时工资,以及将豆子交付给我的客户商店的运输成本。我预计所有这些额外的可变成本约为每磅2美元。
因此,我预计总可变成本约为每磅 $4。
资本投资与折旧

接下来,我需要考虑我的资本投资。我需要做一项重大的资本投资:购买一台能够快速、稳定地烘焙和包装大量豆子的机器。我调查过,一台能处理我预期豆子量的烘焙机成本为 $540,000。它应该能用三年才需要更换。我计划用现金支付。
我计划总共向这家企业投入 $800,000 现金作为启动资金,这样在开始运营时,我银行里还会有 $260,000 的充裕现金缓冲。在紧急情况下,我还可以向朋友和家人额外借入最多 $800,000。
从财务会计的角度来看,为了确定我是否以盈利的价格销售咖啡,我需要找到一种方法,将我已经花在机器上的 $540,000 计入烘焙豆子的成本中。我可以说第一磅咖啡花了我 $540,004,但这不公平。后面的磅数就可以免费使用烘焙机了。

传统的解决方案(我在这里使用)是取 $540,000 这个金额,在一段时间内进行分配或分摊,使得这笔钱的一部分被分配到机器烘焙的每一袋咖啡上。



基于咖啡烘焙机的使用寿命为三年的想法,我将把 $540,000 的购买价格分摊到三年或36个月中。每月 $15,000。如果我每月生产 25,000 磅豆子,将这笔成本平均分配到每磅上,会导致我每磅销售的利润减少 $15,000 / 25,000 = $0.60。

这种因为设备随时间损耗而分配资本支出的方法称为折旧。我知道机器实际上并不是完全均匀地损耗,但我们在会计中经常做这种假设。你可以想象一条向右下方倾斜的直线,所以假设机器每月价值正好减少 $15,000。

这种方法(再次强调,是最常见的折旧类型)称为直线折旧法。为简化起见,这里我们将折旧视为一项固定成本。固定是因为多生产或少生产一磅咖啡不会影响它。如果我们通过机器运行的豆子更多或更少,机器不被认为会损耗得更快或更慢。
固定成本

我每月的某些其他成本也是相同的,无论我烘焙1磅还是10,000磅咖啡。建筑物的租金、水电费、保险费、必要的营业执照、办公室经理和簿记员的工资,这些都是所谓的一般及行政费用。
我也会像处理资本支出折旧一样,将这些G&A费用的一部分分配到每磅咖啡上。每月 $10,000 的G&A费用分摊到25,000磅产量上,第一年应该是 $10,000 / 25,000 = $0.40 每磅。如果我的产量增加,我的每磅成本将会下降。
初步盈利预测
因此,在我提出的模型中,以每磅 $6 的售价和第一年 300,000 磅的销量来看,我的可变成本为每磅 $4,加上固定成本每磅 $1,第一年应该能带来每磅 $1 或总计 $300,000 的利润或净收益。

当我收到订单时,我将记录或确认这笔收入。因此,在我运营的第一个月,我已经显示出 $25,000 的利润。



潜在风险:现金流视角
那么,可能会出什么问题呢?从盈利能力的角度来看,这个生意看起来很棒。但如果从现金如何流入和流出公司银行账户的角度来看,情况就不那么令人放心了。现金流分析的核心是关于时机。

你可能还记得,我们为新的豆子支付货到付款。然后我们需要另外30天来处理豆子,才能将它们送到客户那里。客户然后按净60天的条款支付给我们。这意味着平均而言,当我们收到订单时,我们在同一天支出现金,但客户在90天后才支付现金给我们。
这种情况被称为负浮存金,在各种类型的商业中都非常普遍。我要指出,某些企业如保险和银行业,是现在收到现金,以后提供服务。这是一种令人愉快的情况,称为正浮存金。
然而,客户因已交付产品而欠我们、但我们尚未收到付款的钱,被称为应收账款。所以我们交付了东西,然后我们就有一笔应收账款,直到这笔钱被支付。为了计算我们的损益,这笔钱已经被确认了,但它不会出现在我们的现金流量表上,因为我们实际上还没有拿到它。
我们通过一个称为账龄应收账款的指标来追踪这些我们尚未收到的钱被欠了多久。
好了,以上就是你需要了解的所有财务会计知识。

总结
在本节课中,我们一起学习了埃格斯烘焙咖啡案例研究的第一部分,重点在于定义关键的财务概念。我们介绍了:
- 商业模式:批发烘焙咖啡的基本运作方式。
- 成本分类:区分了可变成本(如生豆、燃料)和固定成本(如折旧、租金)。
- 重要会计概念:包括折旧(特别是直线折旧法)、损益确认以及应收账款。
- 核心风险点:揭示了即使账面盈利,由于付款周期(货到付款 vs 净60天)导致的负浮存金可能带来严重的现金流风险。


我们明确了利润(体现在损益表中)和现金流(体现在现金流量表中)是截然不同的两个分析维度。在下一部分,我们将运用这些概念,具体分析在不同销售增长情景下,埃格斯烘焙咖啡将面临的现金流挑战。
007:盈利增长企业如何陷入困境 💸
在本节课中,我们将通过埃格斯烘焙咖啡的案例,深入探讨一个看似盈利且快速成长的公司是如何陷入财务困境甚至破产的。我们将分析两种不同的销售情景,重点关注利润表与现金流量表之间的关键差异。
上一节我们介绍了案例的基本背景,本节中我们来看看具体的情景分析。
情景一:稳定销售 📊
首先,我们分析销售保持稳定的情景。埃格斯烘焙咖啡每月稳定销售 25,000 磅咖啡,每磅售价 $6,平均总成本为 $5,因此每磅净利润为 $1。
以下是情景一的财务细节:
- 利润表:一月份的销售额为 $150,000(25,000磅 × $6/磅)。一月份的生产变动成本为 $100,000(25,000磅 × $4/磅),加上固定成本分摊 $25,000($10,000管理费用 + $15,000设备折旧)。最终,一月份净利润为 $25,000($150,000 - $125,000)。
- 现金流量表:情况则截然不同。一月份,为生产和烘焙25,000磅咖啡豆,我们需要立即支付 $110,000 现金($100,000变动成本 + $10,000固定现金支出)。然而,一月份产生的 $150,000 应收账款,直到四月份才能收到现金。这意味着,在四月份第一笔现金流入之前,公司需要为二月和三月的订单额外支付 $220,000 现金。总计,公司在收到任何回款前,需要 $330,000 的现金储备。
公司初始的 $260,000 现金储备显然不足,至少短缺 $70,000。假设能够及时借到这笔应急资金以维持三月份的采购,现金流将在四月份转为正数,净流入 $40,000。但直到五月份才能开始偿还那笔 $70,000 的紧急借款。尽管现金流在四月转正,但直到公司启动后的第25个月(即第三年一月),才能完全收回最初的 $800,000 现金投资。到第一年年底,尽管账面上有 $300,000 的净利润,但手头的现金却比创业前少了 $510,000。
情景二:快速增长 🚀
接下来,我们考虑销售快速增长的情景。假设埃格斯咖啡大获成功,订单每季度翻倍:1-3月每月25,000磅,4-6月每月50,000磅,7-9月每月100,000磅,10-12月每月200,000磅,以此类推。
以下是快速增长带来的影响:
- 利润表表现优异:当四月份销量从25,000磅增至50,000磅时,利润不止翻倍,从 $25,000 增至 $75,000。这是因为固定成本(如管理费用和折旧)总额不变,分摊到更多产品上,导致单位成本下降,边际利润上升。这种现象被称为规模经济。其公式可以表示为:
单位成本 = 单位变动成本 + (总固定成本 / 总产量)
当产量(总产量)增加时,单位成本下降。到销售200,000磅时,单位总成本降至约 $4.125,单位利润升至约 $1.875。根据预测,第一年理论净利润高达 $195万。 - 现金流量表危机四伏:然而,现金流量表描绘了一幅截然不同的图景。四月份,我们需要支出 $210,000 现金来生产50,000磅新订单,同时仅收到一月份25,000磅旧订单的 $150,000 回款,现金流依然为负。紧急借款额升至 $130,000。七月份,情况更糟:我们收到100,000磅的新订单,需要支出 $410,000 现金,而仅收到四月份50,000磅订单的 $300,000 回款,现金流缺口扩大。到九月底,紧急借款累计达到 $580,000。
十月初,灾难降临。我们收到了每月200,000磅、持续三个月的新巨额订单。通过Excel模型预测现金流发现,要支撑到十二月底,总共需要 $210万 现金,这意味着在初始投资之外,还需额外借款 $121万,这超出了筹资能力。由于无法支付货款,燃料被切断,工人离开,公司无法履行供应合同。买方不仅可能拒付之前的应收账款(如六月份100,000磅的 $600,000 货款),还会索要巨额违约金。公司唯一的销售渠道断裂,埃格斯烘焙咖啡宣告破产。
核心教训与总结 📝
本节课中我们一起学习了盈利公司可能破产的关键机制。核心教训在于:利润不等于现金流。即使每一笔交易在会计上都是盈利的(单位利润 > 0),但现金流入和流出的时间错配(即“负浮差”问题)可能耗尽企业所有现金储备。快速增长会加剧这一问题,因为它需要更多的营运资金来预付成本,而回款却有延迟。
如果提前认识到这个问题,企业可以尝试安排应收账款融资或保理(以应收账款为抵押的短期贷款)来缓解现金流压力。然而,这需要时间筹划,当危机突然降临时往往为时已晚。



因此,对于创业者和管理者而言,密切监控现金流量表,而不仅仅是利润表,并提前规划增长所需的资金,是确保企业长期生存的至关重要的一环。
008:传统企业销售漏斗 📊

在本节课中,我们将要学习传统企业销售漏斗。我们将了解其构成阶段、关键指标,以及如何追踪这些指标来衡量销售团队的成功与否。
上一节我们介绍了收入指标是面向外部的,衡量公司识别潜在客户、沟通价值主张并最终达成销售的能力。本节中,我们来看看一个具体的框架——传统企业销售漏斗。
什么是企业销售?
在本课程中,我们宽泛地使用“企业销售”这一术语,指代任何需要公司全职销售人员参与的销售。历史上,企业销售指的是复杂产品或服务的大额销售,例如一台大型资本设备(如风力涡轮机),或通过竞标流程赢得作为办公楼建设项目总承包商的权利。
企业销售至少需要与潜在客户进行电话沟通,了解他们,更重要的是让他们有机会了解你。因此,这几乎总是需要派遣你的人员或你自己前往客户所在地进行面对面会议,有时在达成销售前需要多次会议。
企业销售成本高昂。因此,每笔企业销售的回报必须足够大。试图对低价或中价商品进行企业销售的公司,通常平均每笔销售都会亏损,最终要么改变销售模式,要么倒闭。
不同行业、不同公司对于构成最小规模企业销售的金额有不同的标准。但根据美国的运营成本,我可以给出一个通用规则:对于一次性销售,你希望最低金额达到 $250,000;对于周期性销售,每年最低金额达到 $100,000,才能证明企业销售工作的合理性。
销售漏斗指标详解
销售漏斗描述了潜在客户从初次接触到最终成交的转化过程。以下是其关键阶段和指标。
1. 线索
线索是指你拥有其姓名和联系信息的人,并且你知道他在一家拥有相关需求(例如拥有送货卡车)的公司工作,因此他们未来可能有购买需求。
2. 合格线索
第一步是鉴定线索是否合格。定义可能有所不同,但我认为,要成为一个合格线索,你的销售团队需要确认两件事:
- 第一,线索所在的目标公司计划在未来一年内从某处购买至少两到三辆送货货车。
- 第二,如果他们想买,他们有能力购买你的货车。换句话说,他们有购买计划,并且有预算购买你价格区间的货车。
提示:许多人乐于在电话上花几个小时谈论他们的公司多么想购买你正在制造的产品,但你可能在数月或数年后才发现,他们的预算中根本没有钱购买任何此类东西。这类人也常常喜欢邀请你自费前往进行产品演示,却不告诉你现场不会有任何有购买决策权的人。
请注意,你是根据目标公司的计划和预算来确认线索合格的。现在,你需要确定目标公司组织内拥有预算和决策权来决定购买的人。他们需要能够签署采购订单。他们是正确的决策者。
3. 意向表达
当正确的决策者告诉你,他们有兴趣与你探讨购买你产品的可能性时(例如,“是的,我们可能会从你这里购买货车”),这就是一个意向表达。
4. 与决策者会面
下一个重要步骤是直接与正确的决策者会面。在大型、复杂的组织中,这可能需要首先与其他人进行多次会议,包括各种“看门人”和低级职能人员,以及大量的文件要求。优秀的销售人员似乎有一种诀窍,能直接找到最高负责人,绕过可能无休止的会议过程。
5. 软性成交
一旦决策者被说服,你克服了他们所有的反对意见,解决了他们所有的顾虑,并协商好了条款和价格,他们直接告诉你他们的公司将以Y美元的价格从你这里购买X数量的货车,你就得到了我所说的“软性成交”。
为什么称之为“软性”?因为在与实际签订具有法律约束力的合同完成交易(更不用说收到付款)之前,仍然可能出错的环节数量多得惊人。以下是我职业生涯中遇到过的一些例子:
- 决策者不再接听你的电话,停止回复你的电子邮件,假装你不存在。
- 决策者辞职、被解雇或调往其他部门,你需要与一个从未听说过你或你产品的新人重新开始销售流程。
- 目标公司突然被收购,或正在进行收购谈判,所有待定合同被无限期暂停。
- 目标公司破产。
- 你自己的公司决定停止生产或提供你刚刚销售出去的产品或服务,但只在客户同意后才告诉你这个决定。
6. 正式合同销售
这是指签订了具有法律约束力的正式合同销售。此时,你才能在财务会计目的上确认收入。
总结


本节课中,我们一起学习了传统企业销售漏斗的完整流程。关键的企业销售指标依次是:
- 新线索
- 新合格线索
- 意向表达
- 与正确决策者的会议
- 决策者同意(软性成交)
- 实际的正式合同销售数量

理解并追踪这些指标,对于评估销售团队效率、预测收入以及优化销售策略至关重要。
009:亚马逊作为动态指标应用的领先范例(第一部分)📊

在本节课中,我们将学习动态收入指标的概念,并以亚马逊公司作为核心案例,深入探讨其如何通过数据分析和实时定制来优化客户体验与销售收入。




销售活动存在于一个连续光谱之上。光谱的一端是企业销售,其依赖于销售人员与潜在客户之间一对一的个人会议。这类销售代表了销售连续体中的一个极端。


在这个极端,传统的收入指标占据主导地位。而在光谱的另一端,在线零售商则完全无需人工互动,就能吸引潜在客户完成购买。


然而,成功的在线零售商通过其网站或移动端界面管理客户体验,使得销售过程不会显得非人性化或机械化。并且,它们基于实证数据来管理这一过程,以优化每位客户访问带来的收入。
接下来,我们将详细研究一家在定义和利用动态收入指标方面做得非常出色的公司——亚马逊(Amazon.com)——的客户体验及相关指标。

如果你的公司从事零售业,亚马逊方法中的某些方面无疑可以作为当前的最佳实践来应用。即使你不在零售业,亚马逊用于研究访客点击流数据(即点击、光标移动、页面间跳转的模式)的方法,也是适用于任何拥有网站的企业的重要数据分析方法。
亚马逊底层计算机系统设计的精妙之处在于,它能够无缝地将用户看到的、来自各种数据库和索引的大量预处理数据,与对用户查询和点击活动的实时响应结合起来。实时定制意味着公司可以在用户会话进行时,基于该用户的历史和当前点击流数据,以及该访客和类似访客过去的详细行为记录,为每个个体定制用户体验。这是我们实现“立即改变业务流程”这一总体目标的最高体现。
我想通过一个例子,带你深入了解我本人在亚马逊上进行的一次图书搜索,解释亚马逊过去必须做哪些工作,以及它被设计成如何在实时中支持当前的用户体验。
我将从图书的文本搜索开始,输入三个词:information, theory, learning。


在三秒内,亚马逊向我展示了一个包含12本可见图书的网页。让我带你了解这个网页,以及亚马逊选择展示给我的这12本特定图书的列表是如何生成的。
亚马逊维护着一个非常庞大的数据库,我们称之为图书ID数据库。



其中,每一本销售的图书都被分配一个独立的记录号和由唯一图书ID指定的位置。



亚马逊还维护着一个最新的文本索引,以便文本搜索中的每个词都能用来精确检索数据库中标题包含该词的图书记录。


有时,书内的文本也可能被索引。

对于我的搜索,亚马逊在其数据库中识别出超过1200本图书,这些书的标题或其他索引文本中至少包含我的三个搜索词中的一个。现在,有趣的部分开始了。

亚马逊本可以从1200本书中随机挑选12本,那样的话,这些书几乎肯定不是我想要的。我可能会向下滚动,再看一两页,浏览大量无关的内容后,最终放弃购买。这就像是1995年左右的互联网搜索。
相反,亚马逊开始应用其自身的动态收入指标。亚马逊根据这1200个可能相关的项目对我的预测相关性进行排名。换句话说,它们按照输入我的搜索词的人本次访问会购买该商品的概率进行排序。它们只向我展示1200本书中排名前12的,即亚马逊先前数据分析预测我最有可能购买的。这非常酷。
我推断,尽管我没有亚马逊系统的直接内部知识,但亚马逊在选择展示给我的图书时,使用了一个两步流程。


第一步,它们分析我的三个词文本字符串“information, theory, learning”,并将其与一个预定义的高级主题领域类别列表进行匹配。这种类别列表就是老式图书馆卡片目录中的主题索引。由于主题索引包含的词汇量比人们可能查询的所有词汇要少得多或更受控,因此这类索引被称为受控词汇索引。

亚马逊在我输入的文本字符串与其受控词汇索引之间进行匹配。它们通过使用一个庞大的同义词库来实现,该词库为我输入的词汇在其主题领域索引中找到最佳的同义词。这是一种非常有效的方法,可以为人们找到他们实际想要但不知如何询问的东西,而不是给他们自认为想要但会失望的东西。
我之所以推断亚马逊在幕后进行了这种同义词匹配,是因为亚马逊决定向我展示为最相关的主题领域名称。它们出现在第一页的左上角,并附有亚马逊目录中交叉列在每个主题领域下的图书数量。


值得注意的是,虽然所有10个主题领域都与我相关,但其中只有3个主题领域包含了我原始查询中键入的任何一个词。



高级主题索引还可以扩展以包含子主题。例如,如果我点击“AI and machine learning”,我会得到AI and machine learning, computer vision, pattern recognition, intelligence and semantics, neural networks, machine theory等子类。


如果我们有一个类别和子类别的树状结构,亚马逊通过一本书相对于同一主题领域子类别下其他图书的销售情况来定义畅销书。


我提到过,我怀疑亚马逊在选择向我展示哪12本书时采用了两步流程。第一步是使用同义词库来检索亚马逊自身主题索引中最相关的类别。第二步则涉及识别我的搜索词最匹配的主题子类别内的畅销书。正是这些根据主题相关性加权的畅销书,被亚马逊展示给我。


对于亚马逊来说,识别主题类别这个中间步骤是必要的,因为如果它们只是不考虑子类别,按销售率对所有1200本书进行排名,那么任何我(可能只有几千其他人)感兴趣的专门书籍,都会被最畅销的大众读物所淹没。


因此,我们可以推断亚马逊正在使用的动态核心指标是:
- 在受控词汇索引中,哪些主题领域类别与用户键入的精确查询词最相关?
- 在最符合其查询的主题子类别中,哪些书籍是我们当前销售最多的?
本节课中,我们一起学习了销售连续体的概念,并以亚马逊为例,深入探讨了其如何通过构建图书ID数据库、文本索引和受控词汇主题索引,并应用两步流程(同义词匹配与子类别内畅销书排名)来实现实时定制和动态收入优化。这种基于点击流数据和历史行为分析的方法,是提升在线业务收入能力的强大范例。
010:亚马逊动态收入指标解析(第二部分)🔍


在本节课中,我们将深入探讨亚马逊如何利用动态收入指标来优化其推荐系统。我们将重点关注“共同购买”和“共同浏览”数据,了解亚马逊如何存储、分析并运用这些信息来最大化销售潜力。

上一节我们介绍了亚马逊如何为每本书存储分类和销售排名数据。本节中,我们来看看亚马逊还为每本书追踪了哪些其他动态收入指标,以及它如何存储和使用这些信息。
共同购买数据:揭示关联销售模式
当用户点击一本具体的书(例如 David McKay 的《信息论、推理与学习算法》)时,亚马逊会展示一个“经常一起购买”的推荐区域。这揭示了亚马逊追踪的一个关键动态指标:共同购买数据。
以下是亚马逊追踪共同购买数据的关键点:
- 亚马逊记录每一笔同时购买多本书的交易。
- 它为销售的每一本书维护一个实时更新的数据库,记录在同一用户会话中、由同一客户ID购买的其他书籍。
- 这种数据被称为共现数据,可以用共现矩阵来表示。


一个随之而来的问题是:亚马逊展示的“经常一起购买”的书籍列表,是否严格按照共现频率从高到低排序?答案可能并非如此。亚马逊很可能通过A/B测试来优化这个展示位置,以最大化销售额或利润。它可能展示的是能带来最佳追加销售收入的书籍,而非严格意义上共现频率最高的书籍。
共同浏览数据:捕捉未完成的购买意向
除了追踪用户同时购买了哪些书,亚马逊还维护着一个关于用户浏览行为的共现数据库。
以下是亚马逊利用浏览数据的方式:
- 亚马逊记录用户在浏览过程中点击查看过的每一本书,即使最终没有购买。
- 在商品页面底部,亚马逊会有一个单独的列表,展示用户在浏览了当前书籍(但未购买)的同一会话中,最常购买的其他书籍。
- 通过这第二组记录,亚马逊可以识别出那些浏览了某本书但未购买的用户,最终购买了哪些其他书籍。

亚马逊的三层推荐逻辑
综上所述,亚马逊的推荐系统主要基于三层动态指标:

- 第一层:利润最大化的“经常一起购买”指标。这是最直接的促销手段,旨在提高单次交易的价值。
- 第二层:基于购买的推荐引擎。假设用户会购买当前查看的书籍,系统会推荐其他可能被一起购买的书籍。
- 第三层:基于替代购买的推荐。基于那些浏览了当前书籍但未购买的用户,最终购买了哪些其他书籍的数据进行推荐。


本节课中我们一起学习了亚马逊如何利用“共同购买”和“共同浏览”这两类动态收入指标来构建其强大的推荐系统。我们了解到,这些数据被结构化为共现矩阵,并通过A/B测试不断优化展示策略,其最终目的都是为了精准预测用户行为并最大化销售收入。
011:库存管理 📊


在本节课中,我们将学习用于评估公司库存管理效率的关键指标。库存管理是企业在不降低产品质量的前提下,降低成本、最大化利润的主要方式之一。我们将了解库存的定义、为何需要最小化库存时间,并学习如何计算和分析库存周转天数。


上一节我们介绍了企业销售相关的收入指标,本节中我们来看看盈利能力和效率指标,特别是广泛用于评估公司库存管理效率的指标。同时,我们还将揭示如何以最低价格预订酒店客房的秘密。
为何关注库存管理?🤔
库存管理是运营公司降低成本、最大化盈利能力的主要途径之一,且无需以任何方式降低所售商品的质量。
定义库存 📦


库存通常指等待被购买的成品,通常存放在零售店的货架上,或位于工厂与客户之间的物流仓库中。
产品从制造到售出之间闲置的时间越长,对制造商而言效率就越低。库存时间会侵蚀利润。

以下是需要最小化库存时间的四个主要原因。
以下是需要最小化库存时间的四个主要原因。
- 负现金流:你应该从“Eggs Roast Coffee”案例研究中熟悉这个问题。向零售商供货的制造商通常要等到商品在零售端售出后才能收到货款,但生产该产品的资金已经支出。这种负现金流需要营运资金,也意味着利息支出。负现金流的时间越长,支付的利息就越多。如果公司信用不佳,且负现金流意外增加,它可能会在等待库存售出的过程中耗尽现金。
- 例如,零售服装店尤其容易因店内未售出库存导致的现金流问题而被迫破产。在美国,仅2015年前六个月,就有三家大型零售连锁店(Wet Seal、Cache 和 Simply Fashion)宣布破产。
- 固定的仓储成本:每天为仓库或零售店供暖、照明、空调、支付租金、安保及其他维护都需要成本。产品在货架上存放的时间越长,需要分摊给它的仓储成本就越高。
- 例如,假设一个家具仓库和展厅的固定成本为每年10万美元,它有空间展示200套完全组装好的豪华餐桌。这些餐桌的平均售价为1200美元。如果平均库存周转率为每年一次,则意味着我们每年将售出200张桌子,我们需要将10万美元分摊到这200个单位上,即每张桌子500美元的仓储成本。如果平均库存周转率为每年五次,那么我们只需要为每张桌子分摊100美元,这看起来更合理。
- 损耗:平均而言,库存物品在库存中存放的时间越长,其价值就越低。有些库存物品会完全损耗。如果它们没有立即售出,其价值会降至0。考虑新鲜烘焙的面包或必须在制作当天售出的餐厅食物。这些都是极端例子,其中每单位未售出的额外库存都是完全损失。库存损耗的其他例子包括任何有保质期的产品。在美国和其他国家,许多杂货商品都有规定的“销售截止日期”,超过此日期则依法不得销售。我们稍后将单独考虑的一种特殊完全损耗情况是酒店客房和航空公司座位。如果它们在“过期日”之前没有售出,其作为库存的价值将变为零。
- 过时:在库存中存放六个月或更长时间的物品,实际上可能是永远没有人想再购买的东西。可能是该产品的产量超过了全球需求,或者产品已经过时并被更好的产品取代。或者时尚已经改变。物品在库存中存放的时间越长,其最终需要在不销售的情况下被处置、造成完全损失的风险就越大。
库存周转天数 📅
基于上述原因,平均库存持有天数(缩写为“库存天数”)是一个非常有用的业务跟踪指标。

然而,没有多少公司愿意公开其库存天数数据。不过,我将与您分享一个便捷的技巧,用于根据上市公司必须在年度报告中包含的数字来估算其库存天数。

上市公司年度报告将包括年末库存价值以及年度销售成本总额。库存价值使用与评估销售成本相同的会计方法,因此这是同类比较。公司年末库存除以年度销售成本总额,再乘以一年的天数(365),就是对平均库存天数的很好估计。
公式:
库存天数 ≈ (年末库存价值 / 年度销售成本) × 365
我们将以沃尔玛为例进行计算,数据来源于Investopedia.com(一个拥有优秀商业指标术语表的网站)。

截至2014年1月的财年,沃尔玛年报给出年末库存为449亿美元,年度销售成本为3581亿美元。

沃尔玛该年度的估计库存周转天数计算如下:44.9除以358.1,等于0.125,再乘以365,结果约为46天。沃尔玛平均在46天内售出其所有库存,考虑到每家沃尔玛需要备货的滞销商品数量,这相当令人印象深刻。一家沃尔玛商店通常备有超过10万个不同的产品SKU。

深入分析:SKU级别的动态跟踪 🔍

库存天数指标很好,但它没有告诉我们成千上万种商品中,哪些没有按预期速度销售以及原因。

可能是特定产品具有季节性、不再流行、或因有缺陷被客户退回。这些都是我们希望立即了解的动态指标。
所有拥抱大数据文化的公司(包括美国主要的零售杂货连锁店,如沃尔玛、7-11、好市多等)都在单个产品SKU级别跟踪库存周转和库存天数。

他们进一步按国家地理区域甚至单个商店细分该分析。这是通过跟踪本地管理层重新订购任何商品的日期和数量(通常还包括商品上架时间)来实现的,并与收银台销售数据(记录所有销售的确切时间和SKU)进行比较。
例如,如果北卡罗来纳州的一家商店每年销售50把雪铲,且所有销售都发生在12月至3月之间,那么让他们在4月至11月期间持有雪铲库存是没有意义的。

在最佳实践系统中,每个产品SKU都有其自己预期的库存天数,并根据地区和季节性因素使用数学模型进行调整,这有助于确定应为其分配多少货架空间。任何时候发现实际库存天数与预期不同,这就是一个需要关注的警告信号。
另一个问题是货架上某商品数量太少。我们无法直接测量有多少次潜在客户因为想要的商品缺货而不高兴地空手离开,但一个衡量“空手而归的流失客户”的好代理指标是任何特定SKU的库存达到零的次数。从品牌声誉的角度来看,手头至少备有一件你可能预期会销售的商品是非常可取的。
正如彭博社记者梅根·麦卡德尔在2013年的一篇文章中所说:“沃尔玛曾试图削减其承载的SKU数量,但最终不得不将它们重新上架,因为这导致了投诉和销售损失。”产品的单位销售量越高,每次我们看到零库存时潜在的营收损失就越大。一个极好的做法是,每当观察到潜在客户空手离开大型零售店时,派一位友好的市场研究员手持5美元礼品券追上他们,并询问:“您今天有没有在找某样我们货架上没有的商品?”事实上,我注意到昨天在我当地的杂货店(一家大型全国连锁店的一部分),员工现在接受培训,在结账时会问:“今天有什么东西您没找到吗?”我每次都想回答“是的,鸸鹋蛋”,希望某个数据分析师会决定他们应该储备鸸鹋蛋。您也可以试试。
总结 📝


本节课中我们一起学习了库存管理的关键效率指标。我们了解到库存持有时间过长会因负现金流、固定仓储成本、损耗和过时而侵蚀利润。库存周转天数是一个核心指标,可以通过(年末库存 / 销售成本) × 365来估算。更重要的是,现代企业需要在单个SKU级别动态跟踪库存,考虑地区和季节性因素,并警惕库存异常(过高或为零),以优化库存水平、减少损失并提升客户满意度。高效的库存管理是提升企业盈利能力的关键杠杆。
012:酒店客房入住率优化 🏨

在本节课中,我们将要学习如何将商业分析应用于酒店业,通过优化客房入住率来提升盈利能力。我们将探讨酒店客房作为一种“易逝资产”的特性,并学习如何利用数据分析来制定动态定价策略。
并非所有库存中的易逝资产都是传统意义上摆在货架上的产品。两个重要的例子是机票和酒店客房。以下是为何可以将它们视为完全易逝资产的原因。
航空公司有定期航班,例如从罗利-达勒姆机场飞往旧金山。如果航空公司填满那个座位,其最低可变成本仅仅是额外燃料,用于承载可能增加的约100公斤乘客及其行李,或许还有一瓶水和一些花生。与该座位相关的几乎所有成本都是固定成本或沉没成本。航空公司不能因为航班上有一个空座位,就在飞机租赁、维护或支付飞行员和机组人员工资上减少开支。如果座位没有及时售出,创造该座位的资金就完全浪费了。
类似地,在任何给定的夜晚,一间未被租出的酒店客房对酒店所有者来说都代表着一个失去的机会。租出一间房的变动成本非常低,主要是提供干净床单和一小瓶洗发水的成本。使该酒店客房可供使用的几乎所有成本都是不可收回的固定成本,即沉没成本。
今年六月,我为了参加Coursera的一个研讨会,在森尼维尔的格兰德酒店从周六住到周五晚上。我被告知,同一间客房在一周中每晚的价格都不同。这就是可变定价。
上一节我们了解了酒店客房作为易逝资产的特性,本节中我们来看看酒店如何制定其可变定价策略。答案当然是商业分析。我们将看一个将商业分析应用于入住率指标的简化模型。
假设一家酒店在过去两年里,每晚对所有基础客房收取固定的150美元房价。查看过去两年的数据,该酒店的入住率略高于平均水平,为66.4%(这些数字是我虚构的。美国酒店的平均入住率在2013年和2014年分别为62.3%和64.4%)。到目前为止,这没什么用。
然而,如果我们按星期几重新计算平均入住率,会看到以下模式。
以下是按星期几划分的入住率数据:
- 周一:85%
- 周二:90%
- 周三:95%
- 周四:88%
- 周五:45%
- 周六:30%
- 周日:40%
显然,在工作日有更多人前往该酒店旅行,周三是高峰日,而周六和周日的旅行者则少得多。商务旅行者希望周末和节假日在家。这告诉我们这主要是一家商务酒店。
我们可以从这些周度数据推断,如果我们对周一、周二和周四收取稍低的价格,对周五、周六和周日的客房收取更低得多的价格,或许能够提高整体入住率。
上一节我们发现了入住率的周度模式,本节中我们进一步深入,看看周三的特殊情况。如果我们更深入地研究周三的入住率数据,会发现除了周度模式外,还存在季节性模式。
例如,感恩节前的那个周三,入住率可能是35%。圣诞节后那一周的周三,只有40%。而八月的周三,入住率可能达到75%。我们假设平均周三入住率是95%,而九月、十月、三月和四月的周三入住率是100%,这意味着酒店在这些月份的周三完全售罄。
因此,我们正在拒绝数量未知的客人。在九月、十月、三月和四月的周三,我们的需求超过了供应。虽然不清楚需求超过供应的具体程度,但很明显,我们在那些夜晚的收费可能低于我们能够收取的价格。
所以,我们对周三的策略可能是根据一年中的时间收取三种不同的价格:对节假日和八月的周三收取低于150美元的价格;对大多数周三保持150美元;对四个商务旅行高峰月的周三收取高于150美元的价格。
那么,我们应该提高或降低多少价格呢?这就进入了权衡价格与需求的复杂模型领域。这些模型的最佳基础是经验性的:尝试不同的价格,观察房间是卖得太慢还是太快。
以下是实现此目的的一种方法:在在线旅行社(OTA)网站上列出批量客房。OTA对酒店来说并非理想选择,因为它们会收取客房价格10%到25%的佣金,因此酒店更愿意直接向消费者销售。
然而,一个典型的策略是:将特定夜晚的一批客房以预先商定的价格分配给一个OTA。如果OTA未能全部售出,未售出的房间将释放回酒店,由酒店尝试直接销售。OTA为酒店提供了一种机制,可以在不同日期测试不同价格,以观察该批客房是否以该价格售罄。
酒店在试验其公布价格或门市价(即未打折的客房价格)时面临一个挑战:即使是对价格不敏感的最后时刻商务旅客,这个价格也会成为新的最高价。
理想情况下,我们的酒店希望能够以较低的价格(甚至可以低至其理论上的盈亏平衡价格,即所谓的底价)提供一些房间,以吸引度假旅行者,同时为我们的商务旅行者保持较高的价格。
有一种方法可以实现这一点。给定客房的最低价格通常出现在所谓的不透明库存市场中。在不同时期,Expedia、Hotwire、Priceline、Kayak和Travelocity等都提供过此类服务。它们仅按价格提供某个城市的房间,可能也提供一些基本的评级类别信息(如酒店的星级),但不会透露酒店名称或任何其他可能让你识别出是哪家酒店的信息。

不透明库存市场的买家只有在购买完成后才知道他们将入住哪家酒店,并且所有购买都不可更改且不可退款。这种不确定性和不可更改性对商务旅行者没有吸引力。因此,这个市场使得酒店有可能在同一晚对同一房间保持至少两种不同的价格。

尽管关于不透明库存市场规模的确切统计数据很少,但我怀疑这个市场约占美国和加拿大酒店客房销售的2%到4%,并且可能没有增长。高档酒店不希望公开他们正在以比同一晚相同房间通常价格低30%到60%的价格出租一些房间。
此外,对酒店来说,不透明定价交易即使有利润,也往往微乎其微。价格往往接近所谓的底价,这是基于分配给每间房的固定成本加上一间房的变动成本,计算出的酒店每间房的盈亏平衡点的会计计算结果。
除了不透明定价,酒店可以也确实在使用各种模型,以介于门市价和底价之间的价格销售房间。例如,当酒店意识到有些房间可能无法售出时,他们可以向邮件列表或移动短信列表中的客户提供门市价的折扣,这些客户过去曾对该酒店或该品牌表现出一定的忠诚度。有一定品牌联系或品牌忠诚度的人会愿意支付高于不透明库存底价的价格。
那么,酒店何时应该以门市价的80%向忠诚客户提供房间呢?答案是:当房间在到期前以挂牌价租出的概率低于80%时。
总而言之,酒店客房通常每晚至少有三个潜在价格:门市价或挂牌价、底价,以及酒店可以在最后时刻向忠诚客户提供的中间促销价。只有底价是恒定的。挂牌价和促销价会根据星期几和一年中的季节而变化。因此,理论上,一家酒店在一年内可以以超过1000种不同的价格出租同一级别的房间。

本节课中我们一起学习了酒店客房作为易逝资产的特性,以及如何利用数据分析来制定动态定价策略以优化入住率。我们探讨了从固定定价到基于周度和季节性模式的可变定价的转变,介绍了门市价、底价和促销价的概念,并了解了不透明库存市场在价格区隔中的作用。通过应用这些商业分析技术,酒店可以更有效地管理需求,最大化收入潜力。
013:杠杆与声誉风险

在本节课中,我们将要学习两种关键的业务风险来源:杠杆风险和声誉风险。我们将了解高杠杆如何放大财务风险,以及声誉受损如何对企业造成长期影响。课程还将通过真实案例,展示如何利用数据来有效管理这些风险。
杠杆风险
上一节我们介绍了业务风险的常见类型,本节中我们来看看杠杆风险。最常见的业务风险似乎源于过度的杠杆。
当一家公司所欠的债务超过其自身价值时,它很可能无法生存。如果你身处一个依赖发放贷款的行业,并且自身也使用了高杠杆,那么客户违约给你带来的风险会被放大许多倍。
在美国2008年金融危机之前,银行被允许以每持有1美元的权益资本,借入33美元的资金。
设想一家银行能以2%的利率借款,并以3%的利率贷出。如果它拥有1000万美元的权益资本,它可以借入3.3亿美元的债务。以3%的利率贷出这些资金后,在扣除费用前,它每年能获得330万美元的毛利润,即其1000万美元权益资本的33%回报率。
然而,只需要其贷款中非常小的一部分变得无法收回或违约,就足以导致该银行资不抵债。1000万除以3.3亿仅为3%。
声誉风险
理解了财务杠杆的风险后,我们转向另一种同样重要的风险:声誉风险。声誉风险是指对你的品牌和未来销售能力造成的损害。
任何餐厅、连锁店、制造商或杂货零售商,在销售了受污染或变质、导致顾客生病的食品时,都极易受到负面宣传和声誉损害的影响。
以下是管理声誉风险的一个关键策略:
- 快速响应产品召回:在发生一级产品召回时,迅速联系所有潜在风险客户的能力至关重要。
风险管理案例:好市多(Costco)
为了更具体地理解风险管理,我们来看一个好市多(Costco)利用大数据进行产品召回的快速响应的成功案例。
好市多衡量其风险管理效率的一个指标是:当发生所谓的一级产品召回时,他们需要多长时间能联系到每一位潜在的风险客户。
因为好市多要求所有顾客购买年度会员资格,其会员数据库包含地址信息,通常还有电子邮件和手机号码。因此,好市多追踪客户相对容易。
这之所以容易,是因为好市多存储了每位顾客在单个产品ID或SKU级别上的每一笔购买记录。
这些数据被编入索引。当制造商发起产品召回时(如2014年春天发生的花生酱和桃子两次召回事件),好市多能在24小时内,识别出所有购买过该产品的5万多名顾客。
他们使用最快可用的方式联系这些顾客,在某些情况下通过电子邮件和电话,但无论如何都会向邮寄地址发送信件。他们因此成功阻止了许多人生病。
数据追踪溯源案例
一个更有趣的案例是利用好市多的数据库追踪流行病源头,此事发生在2010年1月至2月。
当时,美国44个不同的州有272人因感染同一种基因型沙门氏菌而生病。美国疾病控制与预防中心试图追踪污染源,但最初未能成功。
直到有人想到一个非常聪明的办法:分析这272人中可能曾在好市多购物的人的购买记录。由于好市多会员覆盖了约四分之一的美国家庭,可以合理推测这组人中约有70人是其会员。
随后,通过识别这70人共同购买过的食品,发现唯一共同的产品是意大利辣香肠。该产品由一家位于罗德岛州帕斯科的小型香肠公司——丹尼尔斯国际公司生产。
污染物最终被追溯到是来自纽约布鲁克林批发商“健康香料公司”的一个25磅重的碎红辣椒箱。事实证明,它并不那么“健康”。

本节课中我们一起学习了杠杆风险和声誉风险。我们了解到,高杠杆会显著放大财务脆弱性,而声誉损害则对企业的长期生存构成威胁。通过好市多的案例,我们看到完善的数据系统和快速的响应机制如何能有效管理产品召回风险,甚至帮助追踪公共健康问题的源头。这些工具和指标对于现代商业风险管理至关重要。
014:大数据背景下的角色与企业关联 📊

在本节课中,我们将探讨商业环境中人员如何与公司数据互动和协作。我们将介绍一个简化的角色分类框架,并分析不同类型公司与大数据的基本关系。理解这些内容有助于你明确职业方向,并评估所在公司的数据分析成熟度。
角色分类框架 👥

上一节我们学习了如何识别重要的商业指标。现在,我们将注意力转向商业人士与公司数据互动的主要方式。
我们提出了一个简化的框架,将主要角色分为四类,并对应四种不同的职位头衔。

以下是四种主要角色类型:
- 商业分析师
- 商业数据分析师
- 数据科学家
- 高级软件工程师或技术项目经理
本课程与职业角色的关联 🎯
接下来,我们解释本专项课程与这些角色的关联。
关联很简单。任何成功完成本专项课程的人,都将为担任商业分析师或商业数据分析师的初级职位做好充分准备。
数据科学家职位需要额外的技能和工作经验。但如果你有志于未来成为数据科学家,完成本专项课程后,你将清楚地了解需要采取哪些步骤来实现目标。除了少数拥有统计学、计算机科学及相关领域博士学位直接进入行业的人,大多数在职数据科学家都是几年前从商业数据分析师起步,并在工作中学习了所有额外所需的技能。美国也有许多优秀的硕士项目可以为你从事数据科学家职业做准备。
另一方面,高级软件工程师/项目经理的职业道路与商业分析师/数据科学家的职业道路截然不同,其培训和要求也大相径庭。我们将解释其原因,并讨论在优秀公司中,商业分析师、商业数据分析师、数据科学家和软件工程师如何合作与协作以取得卓越成果的最佳实践。
公司与大数据的关系 🏢
在考察了与数据相关的不同类型工作后,我们将思考数据在各类公司成功中扮演的角色。
我们根据公司与大数据的基本关系,将公司分为五种类型。
以下是五种公司类型:
- 专注于通用业务的战略咨询公司
- 所有行业中的传统实体公司
- 专注于信息技术或系统集成的战略咨询公司
- 销售用于收集、存储、分析和使用大数据的硬件、软件或软件即服务的公司
- 数字业务公司,其价值创造的核心涉及数据的实时分析

实体公司的数据分析成熟度 📈

在庞大的实体公司类别中,一些公司已经完全接纳了我称之为“大数据文化”所带来的机遇。
例如,在美国的杂货零售领域,好市多是运用数据分析最佳实践的优秀典范。而像Food Lion这样的公司则相对落后。还有像A&P这样的公司似乎不知从何开始,事实上,A&P现在已经破产。
因此,识别你的公司在采纳数据分析最佳实践的频谱上处于什么位置显然非常重要。我们将提供一些方法和工具,帮助你能够做到这一点。
我们还包含了一些简短的访谈,让你可以直接聆听目前在数据分析职业中蓬勃发展、但在不同类型公司中扮演多种不同角色的人们的经验。
总结 ✨

本节课中,我们一起学习了商业数据分析领域的四种关键角色及其与课程的关联,并了解了五类公司与大数据的不同关系模式。我们还认识到,即使在传统实体公司中,对数据分析的接纳程度也差异巨大,这直接影响其竞争力。理解这些框架有助于你规划职业路径,并评估企业利用数据驱动决策的能力。
015:业务分析师的核心技能 📊

在本节课中,我们将探讨业务分析师这一职位所需的核心技能。通过分析大量招聘广告,我们发现“业务分析师”这一头衔涵盖的工作范围非常广泛,职责要求也各不相同。我们将聚焦于所有这类职位共同要求的核心能力,并将其分解为七个关键领域。
概述
业务分析师需要将商业问题转化为可分析、可执行的方案。这要求他们不仅具备技术能力,还需理解业务本身。接下来,我们将逐一解析这七个核心技能领域。
核心技能详解
上一节我们概述了业务分析师角色的多样性,本节中我们来看看所有成功候选人都应具备的七项核心技能。
以下是业务分析师需要掌握的第一项核心技能:
- 识别关键业务指标的能力
这指的是对特定公司所在行业领域的深入了解。到目前为止,我们讨论的多是适用于许多行业的横向业务指标,例如企业销售漏斗。然而,许多指标只在特定的垂直市场或行业领域内才具有相关性。每个行业都有其专业指标以及通用指标,这些专业指标有其自身的概念和词汇。在本课程中,我们将涵盖几个主要垂直市场(包括房地产和金融服务)的行业特定指标。请记住,若想为其他垂直市场的业务分析师职位做准备,你需要对该行业特有的、衡量其成功、效率和风险的关键指标进行额外的行业特定研究。
在明确了需要分析哪些指标后,下一步就是如何分析它们。以下是业务分析师需要掌握的第二项核心技能:
- 应用合适模型分析指标的能力
业务分析师需要了解的模型可以在 Excel 中运行。本课程将涵盖跨多个行业使用的最重要的通用模型。值得花点时间澄清一下我们所说的“模型”是什么意思。模型是我们用简化的数学形式来代表现实世界情况的方式。例如,在银行整体信用卡违约风险的模型中,信用卡用户与卡片互动的全部行为(从总是按时全额还款,到有时错过最低还款额,再到严重拖欠但计划补上,乃至故意累积债务后消失)过于复杂。因此,一个模型可以将他们仅分为两类:违约和非违约。然后,我们可以利用历史模式来预测下个月有多少客户会从一类转移到另一类。这将是一个用于违约风险的二元分类模型。模型之所以有用,是因为它们比它们所代表的混乱现实更简单、更小巧,并且它们使用数学公式来代表现实,这使得修改模型、用于预测未来等变得容易。本课程的模型都可以在 Excel 中设置和执行。在课程二中,我们将深入讨论商业分析中最重要的模型。
建立了模型之后,我们需要评估其表现。以下是业务分析师需要掌握的第三项核心技能:
- 量化模型有效性的能力
不同类型的模型依赖不同的指标来衡量其表现。我们将研究所有最常用模型类型的标准性能衡量指标。例如,我们上面提到二元分类模型可用于预测未来的违约率。但进行二元分类的方法有很多种,选择我们可用的最佳方法(基于我们拥有的数据和其他限制条件)需要有一种公认的方式来比较所有二元分类模型之间的性能。正如我们稍后将看到的,有一个通用指标可以比较任意两个二元分类:ROC曲线下面积。关于此的更多细节将在课程二中介绍。

技术分析能力固然重要,但理解业务需求是分析的起点。以下是业务分析师需要掌握的第四项核心技能:

- 倾听与访谈的能力
这包括访谈客户(内部或外部)以定义项目需求。业务分析师的大部分工作成果以各种报告的形式呈现。一份报告可以是客户需求文档,将客户所述的需求转化为公司能够交付的产品功能和确切服务。或者,一份报告可能仅供内部使用,客户是营销副总裁或销售团队。一份有效的报告能够将问题“操作化”,它清晰地阐明了为解决该问题需要采取的具体步骤、由谁执行、按什么顺序执行。这些步骤随后可以被衡量和跟踪。我们将在本课程后续部分给出更多示例。
将需求转化为分析,离不开强大的工具支持。以下是业务分析师需要掌握的第五项核心技能:
- Excel 技能
- 基础技能:包括识别业务数据中的模式和趋势、进行预测、组织财务信息以及在图表中展示结论的能力。
- 中级技能:例如导入和管理大型数据集、开发和测试不同模型以及使用规划求解运行优化的能力。这些主题将在课程二中深入讲解。
分析结果需要有效地传达给决策者。以下是业务分析师需要掌握的第六项核心技能:
- 演示技能
即使用 PowerPoint 进行有效、清晰、简洁且有说服力的口头和书面沟通。这个主题将在课程三中深入讲解。
最后,为了让非技术受众也能直观理解你的发现,可视化是关键。以下是业务分析师需要掌握的第七项核心技能:
- 使用数据可视化的能力
这能使你的结论和建议对非技术受众来说变得直观易懂。在本专项课程中,我们将教授商业领域最广泛使用的数据可视化工具之一 Tableau 的使用。同样,这个主题将在课程三中深入讲解。
总结

本节课中,我们一起学习了成为一名成功的业务分析师所需具备的七项核心技能:从识别行业特定指标、应用和分析模型,到倾听需求、运用 Excel 工具,再到通过演示和数据可视化清晰传达见解。这些技能共同构成了将数据转化为商业价值的完整链条,我们将在后续课程中对其中多项技能进行深入探讨。
016:业务分析师访谈

概述
在本节课中,我们将通过聆听商业分析师 Shambhavi Vashishtha 的分享,了解商业分析在实际企业环境中的应用。她将介绍其工作内容、使用的工具以及如何将学术知识转化为解决实际商业问题的能力。

现在,我想向你介绍 Shambhavi Vashishtha。
她在 Opera Solutions 公司担任商业分析师。大家好,我是 Shambhavi Vashishtha。
我目前在 Opera Solutions 担任商业分析师。
我在印度完成了数学硕士学位,随后在杜克大学获得了工程管理硕士学位。我修读过 Daniel Ager 教授的多门课程,并且非常喜欢它们。
我将谈谈如何将这些知识应用到我的职业生涯中。
Opera Solutions 是一家大数据分析公司,我们的客户遍布多个行业。
我们目前服务于旅游、医疗保健、零售、资本市场、私募股权等领域。
Opera Solutions 成立于 2004 年,至今已有 11 年。
公司已发展成为一家大型企业,在海外设有办事处,包括印度、上海、伦敦。在美国,我们在波士顿、纽约和圣地亚哥设有办公室。
目前仅在美国就有超过 500 名员工。
并且我们还在持续发展。作为一名商业分析师,我曾与不同行业的客户合作。
目前我正在与一家零售客户合作,这是一家财富 50 强公司。
我们致力于他们的个性化推荐项目。
可以想象,每个人都希望看到为自己定制的优惠。

我们正为此努力。
因此,我们会基于不同的分析准备不同的“故事”。
我们对数据进行各种图表和切分,然后将其放入 PowerPoint 幻灯片中。
围绕数据构建一个故事,然后呈现给客户。如果客户认可某个想法,我们就去执行它。
对于零售公司而言,客户忠诚度至关重要,因为公司希望维持客户的忠诚度。
公司希望客户反复光顾并完成交易。
这就是为什么公司希望每天都能优化客户的体验。
这就是为什么公司希望定制他们的购物体验。我们的衡量指标是:
我们希望增加他们的到店次数。
我们希望提高他们的购物篮价值,并从中提升我们的利润。
因此,你在购物时购物篮中的商品数量,我们希望提高这个数值。
我们希望你在零售店中探索不同的商品区域。
我们希望你能在我们这里花费更多,购买对你重要的商品。所以我们会向你发送与你相关的优惠。
商业分析师实际上在非技术人员和技术人员之间搭建了一座桥梁。
因为我需要向技术分析师解释非常技术性的分析,然后向客户解释分析结果,而后者必须完全是业务导向的,不涉及技术术语。
作为一名商业分析师,你需要面对不同的受众。我的受众包括我的业务客户,以及我的技术团队。
我需要向技术团队解释如何构建模型,以及我期望得到什么样的结果。
作为桥梁,我尝试用非常通俗的语言向业务人员解释,以便他们能够做出正确的决策,并拥有决策所需的所有信息。
当我们开始与这位客户合作时,我们收到了一个庞大的数据文件,必须对其进行清理。
我们所知并使用的不同清理流程包括文本匹配、去除空格、去除连字符,以及任何可能给数据带来干扰的内容。
之后,我们开始使用 SQL,具体是 MySQL 来运行所有查询,获取我们所需的数据。
一旦我从分析师那里获得干净的数据,我会将其导入 Excel。
我创建不同的图表和图形来分析机会所在。
一旦我们发现一些机会,就必须围绕它构建一个故事,并在 PowerPoint 中完成。
我们需要提出不同的数据点来支持我们的假设,即“如果你这样做,那将会发生”,然后用一些数据点、图表和图形来支持它。
然后将其呈现给客户。因为客户最了解自己的业务,如果方案合理,我们就执行。
一旦我获得干净数据,就将其放入 Excel。
Excel 是一个非常强大的工具,是大多数分析师的基本工具。
我在 Excel 中创建不同的数据切分、图形和图表来准备我的故事。
一旦我发现有突出的地方,就会深入分析,而 Excel 正是完成这项工作的工具,无论是数据透视表、VLOOKUP 还是其他任何功能,Excel 都能满足需求。
在职场中,你面对的是开放式问题,你并不清楚解决方案,因为需要你自己去构思。
数据挖掘课程为我做到了这一点。该课程让我们有机会探索不同类型的问题和解决问题的技巧。
然后提出多种解决方案,并可能作为一个团队找出最适合特定问题的那一个。
因为无论何时解决问题,你都是作为一个团队来完成的。
你的团队期望的是你能提出正确的问题,并朝着正确的方向前进。
我与优秀的同事共事,我们有一个很棒的团队。我有一个由统计学家和数学家组成的团队与我合作,他们会为我们构建实际的模型。
我会给他们一个业务需求,例如,我的需求是“我想分析我所有的客户,但逐个分析很困难,所以我希望对他们进行分群。”
是的,我会要求我的团队成员为我构建一个模型,该模型能输出不同的客户群组。
他们会根据客户的消费、行为、消费模式、购买内容、喜好、光顾频率等因素,将客户合并到不同的群组中。
这就是分群分析。这样你就不必在个体层面操作,而是可以将他们组合在一起,并提供与他们高度相关的内容。
总结
本节课中,我们一起学习了商业分析师 Shambhavi Vashishtha 的实际工作流程。她展示了如何从清理原始数据开始,使用 MySQL 进行查询,在 Excel 中进行深入分析和可视化,最终在 PowerPoint 中构建商业故事并呈现给客户。她的经历清晰地说明了商业分析师作为业务与技术之间桥梁的角色,以及如何运用数据分析技能解决真实的商业问题,例如通过客户分群模型(聚类分析)来实现个性化营销。
017:区分业务数据分析师与业务分析师角色 📊

在本节课中,我们将探讨业务数据分析师与业务分析师这两个角色的核心区别。我们将重点分析使业务数据分析师职位更具资深性、通常薪酬也更高的两项关键技能。
在许多方面,业务数据分析师的工作与业务分析师相似。业务分析师所需的所有技能,业务数据分析师同样需要具备。
然而,业务数据分析师角色与业务分析师角色主要在两个方面存在区别。正是这两项额外的要求或技能,使得业务数据分析师职位更为资深,且通常薪酬更高。
第一项区别:概念与分析技能 🔍

上一节我们提到了两者在技能要求上的重叠,本节中我们来看看第一项关键区别:概念与分析技能。
业务数据分析师需要具备灵活思考的能力,能够思考如何将公司当前收集的数据以新的方式进行重组和分析,从而更好地理解业务。
以下是两种角色的典型工作场景对比:
- 业务分析师:通常会被分配一个具体的问题进行分析,这些问题基于由他人整理好的信息。
- 业务数据分析师:可能需要能够从分散在公司各处的数据源中整合信息,并且应该能够判断在组织中的何处可以找到相关数据。
换句话说,业务数据分析师应该能够提出正确的问题,以识别出数据可能暗示的业务流程改进机会。


第二项区别:相关技术技能 💻
了解了概念技能的区别后,我们接下来看看与之相关的第二项关键区别:技术技能,特别是SQL的应用。
业务分析师通常会被给予一个现成的数据集或问题定义。而业务数据分析师则被期望能够运行SQL(结构化查询语言)查询,从庞大得多的数据库中提取有用的数据,甚至是从组织内多个地点分散的非结构化数据集合中提取。
以下是SQL技能带来的核心能力:
- 数据提取:使用类似
SELECT * FROM sales_data WHERE region = 'Asia';的查询语句从原始数据库中提取特定数据。 - 数据整合:将提取的数据组合成此前不存在的新数据集,以支持分析师的研究计划。
学习SQL并不困难。你可以在几周内掌握足够的SQL知识,以满足大多数业务数据分析师职位的期望。然而,这项技术知识确实构成了一道巨大的分水岭。
不具备SQL技能的人需要依赖他人(通常是组织内的IT部门或数据库管理员)来为他们创建可用的数据集。而拥有SQL技能的人则可以自行访问并重组组织内几乎任何原始数据。
这种自主性和自给自足的能力极大地提高了业务数据分析师的工作效率,并为他们提供了更大的创意空间。因为他们可以自行探索直觉或追踪线索,而无需麻烦其他员工来为他们收集、清洗或重组必要的数据。

本节课总结:我们一起学习了业务数据分析师与业务分析师的两个核心区别。第一是概念与分析技能,即主动利用现有数据发现新见解的能力;第二是SQL技术技能,它提供了数据访问的自主权,是提升工作效率和创造力的关键。掌握这两项技能是迈向资深业务数据分析师的重要步骤。
018:业务数据分析师Tiffany Yu访谈 💼


在本节课中,我们将通过业务数据分析师Tiffany Yu的访谈,了解数据分析在金融咨询行业的实际应用、所需的核心技能以及求职建议。她的分享将帮助我们连接课程理论与行业实践。
访谈对象介绍
现在,我想向你介绍Tiffany Yu,她是Argus信息与咨询服务公司的业务数据分析师。
我的名字是Tiffany。我来自中国上海附近的一个城市。大约四年前,我来到杜克大学攻读工程管理硕士学位。在那期间,我参加了由您指导的Roman国际贸易竞赛,那是一段非常棒的经历。同时,我也选修了由您开设的数据挖掘课程。
毕业后,我加入了Argus信息与咨询服务公司。这是一家咨询公司,为美国、英国、加拿大信用卡行业的领先零售银行、信用机构和零售商提供营销分析、数据分析和风险管理服务。我目前是建模团队的副经理。
工作内容与数据应用

上一节我们认识了Tiffany,本节中我们来看看她的具体工作内容以及如何应用数据。
我们拥有信用卡交易级别的数据。这意味着,例如,每次你在杂货店刷信用卡时,我们都能捕获消费金额、交易描述和交易时间。客户希望了解客户的违约率、潜在的违约风险。然后,我们可以使用一个逻辑回归模型来预测该客户违约的可能性有多大。
因此,我们帮助他们处理这类营销活动、现有客户管理、市场拓展活动以及一些风险管理项目。说实话,由于我们拥有独特的数据,我们在市场上并没有真正的竞争对手。
面试考察与技能要求
了解了日常工作后,我们来看看这个行业在招聘时会考察哪些能力。
通常在面试中,他们会给你一个案例,类似于一个商业案例。然后他们会问你想要建立什么样的模型。此外,在你建立模型之后,你会使用什么样的指标来评估这个模型是否有效。同时,如果你建立了这个模型,这个模型会存在什么样的偏差。最后,你如何使用模型结果回过头来解释业务问题。
我的日常工作涉及使用SQL、Excel这类工具。如果只学一门语言,那绝对是SQL。是的,它非常非常有帮助。它就像一切的基础。因为通常在大数据领域,你必须有一个地方来存储所有那些数据。而你首先需要做的事情就是从数据库中收集数据。所以我认为SQL会非常非常有帮助。
关键指标与职业角色澄清
在掌握了基础工具技能后,理解业务指标和明确职业定位同样重要。
我们建立模型为他们预测,在信用卡行业中我们称之为“响应率”。关键的指标包括总消费额、总余额、平均信用额度等。
实际上,现在有很多职位名称,比如业务分析师、数据分析师和数据科学家,人们常常对它们到底是什么感到困惑。很多人去申请这些职位,然后在面试前一两天打电话问我需要知道哪些技能。我说,如果你会写SQL语言会很好。他们就会说,哦,你应该早点告诉我。这并不那么难。我的意思是,如果人们准备大约一周,他们实际上可以掌握一些东西。但大多数时候,我只是觉得人们并不真正了解,并且他们无法获得这类信息。
总结与建议
本节课中,我们一起学习了业务数据分析师Tiffany Yu的行业洞见。
因此,我认为开设像这样的课程真的很有帮助,能够从实际在这个行业工作的人那里获得信息,告诉你需要了解哪些技术技能。同时,也指导你在解释以往工作经历时,应该如何呈现它。
019:数据科学家 👨🔬

概述
在本节课中,我们将要学习数据科学家这一新兴的领导角色。我们将了解其定义、重要性、核心职责,以及成为一名数据科学家所需掌握的、超越商业数据分析师的额外技能。
什么是数据科学家?
数据科学家是一个新兴的领导角色。这一角色具有跨学科性质,其职责范围在不断演变。尽管如此,数据科学家正日益被视为至关重要的职位。目前,市场对熟练数据科学家的需求远远大于供给。
在过去十年中,很难想象任何有竞争力的、追求规模化的企业,能够在没有协调一致地整合以下三个要素的情况下,在其市场中生存,更不用说发展和取胜了。
数据科学家的核心职责
数据科学家的核心职责是协调整合以下三个关键要素,以支持企业决策。
1. 建模、机器学习与预测
这指的是利用模型、机器学习算法进行预测分析的环境。
2. 数据驱动的业务流程
这指的是一个关键业务流程数据被持续捕获、存储、分析,并在整个组织内更新和共享的环境。
3. 实时或准时的决策支持
最后,数据需要以实时或准时的方式传递给决策者。
在许多情况下,决策者本身就是一个计算机算法,它无需人工输入即可实时决定如何与客户互动,就像我们之前讨论过的亚马逊推荐引擎一样。这需要对用户体验设计过程产生重大影响,并需要投入更多的软件工程资源。
在其他情况下,需要将客户最近的交易信息提供给销售或支持人员,以便他们在与客户联系时,了解迄今为止发生的一切。准时的标准就足够了,但这同样需要付出巨大努力来设计、构建和维护公司的数据存储与检索系统。
无论在哪种情况下,数据科学家都是那些能够把握大数据在显著改进业务流程方面的可能性的人。他们能够将公司的业务目标和需求转化为数据库架构和软件工程术语,同时也能将工程师的需求和关注点转化为公司非技术管理层能够理解的语言。
超越商业数据分析师的技能要求
成为一名数据科学家的要求始于商业数据分析师所需的相同技能。但数据科学家还需要熟悉大量额外的技术和概念。数据科学家需要是宏观蓝图的大师,理解不同的工具和技术如何整合形成一个连贯的整体。
我们已经确定了数据科学家需要具备的、超越商业数据分析师九项技能的八个额外技能领域。以下是这八个技能领域的详细介绍:
1. 更高级的建模工具
至少对 R、Matlab 或 SAS 其中之一具备中高级知识。
2. 高级统计方法
大多数数据科学家至少在大学或在线课程中学习过一门微积分级别的概率与统计推断课程。本专项课程的第二课将介绍你在此类课程中会遇到的大部分高级主题,但以入门方式进行,以便你自己决定是否有兴趣深入学习这些主题。
3. 贝叶斯学习与概率模型
用于预测分析的机器学习算法。机器从数据中学习的方式,通过贝叶斯假设和贝叶斯方法得到了很好的体现。几乎所有实时决策系统都依赖机器学习来确保决策反映最新的数据输入。同样,第二课将简要介绍这些主题。
4. 额外的关系型数据库技能
至少包括如何填充(即向数据库中存入数据)和优化(使提取数据更快)SQL 数据库。
5. 关键通信技术的中级知识
了解用于在客户层(通常是网络浏览器或移动应用)和数据库层之间通信的最重要技术。这些工具是 Python、Java 和 JavaScript。
6. 管理分布式和非结构化数据的经验
包括 Hadoop、MapReduce、Hive、Pig 和 Spark 等工具。
7. 自然语言处理工具与方法的基础知识
用于情感分析等应用。
8. 大规模可扩展的云数据托管与处理经验
使用 Amazon Web Services (AWS) 或其最接近的竞争对手之一,如 Microsoft Azure 或 Google Compute Engine。

总结
本节课中,我们一起学习了数据科学家这一关键角色。我们了解到,数据科学家是连接业务需求与技术实现的桥梁,负责整合建模预测、数据流程和实时决策支持。要胜任这一职位,不仅需要具备商业数据分析师的核心技能,还需掌握从高级统计、机器学习算法到数据库优化、云计算等八大领域的扩展技能。这使其成为当今数据驱动商业环境中需求旺盛且至关重要的领导者。
020:数据科学家Dai Li访谈 🎤

在本节课中,我们将通过数据科学家Dai Li的访谈,了解数据科学家在实际工作中的角色、使用的工具以及如何将数据分析与商业决策相结合。本次访谈将为你揭示数据科学领域的真实工作场景。

访谈对象介绍
现在,我想向你介绍Dai Lee,他是ifV公司的一名数据科学家。

个人背景与公司简介
你好,我叫Dai。我目前在一家名为ifV的社交网络初创公司担任高级数据科学家。
公司大约有150名员工。它拥有几款社交相关的产品,包括tech.do.co、high5.dot.co以及一款情感聊天应用can.not。
这是一家位于旧金山湾区(Bay Area)的公司。在我加入这家公司之前,我在杜克大学攻读工程管理硕士学位,主修数据分析方向。
数据来源与查询
我们公司的大部分数据是结构化的,存储在传统数据库中。我经常使用SQL来从数据库中查询数据。这包括例如,调用SELECT * FROM table_name;这样的语句。
此外,我们也有像Hadoop这样的分布式数据库。我们使用Hive,也使用Pig。我们目前也在探索Spark。
数据分析与工具
在我获取数据之后,就进入了第二步:数据分析。我使用R、Python、Matlab、Octave、Becca等工具,选择最适合我手头问题的可用工具。
市场上还有其他可用的工具,例如SAS。当然,我也使用Excel。听起来Excel可能更偏向非技术性,但实际上它是一个非常好的工具,你可以用Excel以很高的效率完成大量的数据处理、数据分析和数据建模工作。
脚本与工程任务
脚本编写在某种程度上与工程更相关,我通常使用脚本语言来执行一些数据ETL任务,其中ETL代表提取(Extract)、转换(Transform)和加载(Load)。
同时,我也使用脚本任务进行大量的文本处理和与文本相关的建模。我经常使用Python来做这些工作。
数据可视化与工具开发
我使用R,特别是它的Shiny包,来构建一些数据分析工具。我尝试抓取并处理数据,然后将感兴趣的数据展示给我的客户,这些客户很可能是数据分析师或产品经理,他们希望了解公司或特定产品的情况。
并通过工具展示数据的可视化结果。
与业务结合
我所做的所有工作最终都与业务相关。这就引出了我工作的第四部分:与产品经理和产品利益相关者紧密合作,展示能够帮助他们做出商业和产品决策的数据。
我们公司拥有基于数据做决策的良好文化。我相信这确实帮助了产品和公司的成长。
行业前景与课程推荐
这是一个发展非常迅速的领域。几乎所有与技术相关的公司都需要数据。他们需要有人来查看数据并讲述数据背后的故事。
因此,我强烈推荐Algus教授的课程,在那里我不仅学会了如何处理数据,还学会了如何使用数据来讲述故事,帮助改进围绕数据的产品,并帮助提升业务。
本节课中,我们一起学习了数据科学家Dai Li的工作日常。我们了解到,数据科学家的工作不仅涉及使用SQL、Python、R等多种工具进行数据查询、分析和建模,还包括通过脚本进行ETL和文本处理,以及利用可视化工具(如R Shiny)向业务方展示数据洞察。最重要的是,所有分析工作最终都服务于商业决策,体现了数据驱动文化的价值。对于初学者而言,掌握从数据处理到商业应用的全链条思维至关重要。
商业分析职业路径:5:高级软件工程师与技术产品经理 👨💻

在本节课中,我们将探讨大数据生态中至关重要的两个角色:高级软件工程师和技术产品经理。他们的职责与之前讨论的商业数据分析师和数据科学家有显著不同。
随着企业拥抱大数据文化,除了商业数据分析师和数据科学家,公司还需要熟练的软件工程师和经验丰富的技术产品经理。他们的核心任务是设计和构建、优化用户体验以及构成公司实时与即时系统的所有底层架构。
核心技能差异
上一节我们介绍了商业数据分析师的通用技能,本节中我们来看看软件工程师的技能构成。之前讨论的九项商业数据分析师必备技能,通常不属于软件工程师的常规技能集。同样,数据科学家所掌握的建模工具、统计方法和机器学习知识,对软件工程师而言也并非必需。
共享的技能领域
然而,软件工程师与数据科学家在部分技术领域存在交集。以下是他们共同掌握的知识:
- 脚本语言:例如
Python、Java和JavaScript。 - 大数据处理工具:用于处理和检索非结构化数据的工具,如
Hadoop、MapReduce、Hive、Pig和Spark。 - 其他技术:自然语言处理工具的经验,以及基于云的服务(如 AWS)的使用经验。
软件工程师的专属技能
主导大数据项目系统工程和产品管理的软件工程师,通常还具备以下五项额外的专业技能:
- 底层语言经验:例如
C++的使用经验。 - 高性能数据库知识:对高可扩展、低延迟的商业关系型数据库(如
Oracle和Teradata)的了解。 - 团队领导经验:领导软件开发团队的经验。
- 项目管理经验:包括软件开发的进度安排和预算制定。
- 实时数据处理经验:与实时及第三方数据源协作的经验。
职业路径的区分
我们认为有必要明确指出:虽然商业分析师、商业数据分析师和数据科学家的职业路径始于相同的基本技能,并且随着在组织内晋升,其技能重叠度很高,但软件工程师和技术产品经理在技能和经验要求上则非常不同,并且在很大程度上没有重叠。
我们希望你确保自己选择了正确的职业发展路径。
总结

本节课中,我们一起学习了大数据领域高级软件工程师与技术产品经理的角色定位。我们明确了他们与数据分析师的核心技能差异,介绍了他们与数据科学家共享的技术栈,并详细列出了软件工程师独有的五项关键技能。最后,我们强调了这些技术类职业路径与数据分析类路径的本质不同,帮助你更清晰地规划职业方向。
022:五类大数据相关企业概述 🏢

在本节中,我们将对美国市场中塑造大数据文化的领先公司进行分类概述。我们已经了解了如何从大数据中提取指标以改进业务流程,也探讨了不同关键岗位的人员如何与数据协作。作为大数据生态系统概览的最后一部分,我们将识别并梳理这些公司。
为了便于理解,我们将所有美国公司划分为五个类别。这五个类别按照其业务优势对专有软件和知识产权的依赖程度,从低到高进行排序。换句话说,这个排序也大致反映了它们招聘初级商业分析师(而非更技术性的软件开发人员)的可能性高低。详细的排序说明可参考课程配套图示。
以下是这五个类别的具体介绍:
第一类:传统战略商业咨询公司
这类公司的商业模式是提供建议并收取费用。它们通常专注于改进业务流程、增加收入、最大化盈利能力和降低风险的方法。
第二类:传统实体企业(规模最大)
这是迄今为止规模最大的群体,涵盖了所有市场领域的传统企业,常被称为“实体公司”。它们与在同一市场竞争但拥有完全不同商业模式(通常成本结构低得多)的数字化公司形成对比。实体运营成本高昂,零售、大型商店、银行与支付处理、金融顾问、出租车、酒店等许多传统经济领域正面临来自数字化公司的激烈竞争。我们将识别哪些公司正在有效反击,哪些则显得落后。
第三类:兼具软件实施能力的战略咨询公司
这是一小部分同样建议业务流程变革的咨询公司,但它们专门负责构建或安装定制软件系统来实施其建议。由于《财富》500强公司倾向于遵循它们的建议,这些公司对数据分析市场有着超乎寻常的影响力。
第四类:硬件与软件公司
这些是关键公司,它们共同提供了收集、存储、管理、搜索、处理、分析、可视化和报告全球数据所需的产品与服务。我们将深入探讨大数据信息技术领域的各个子行业。
第五类:数字化公司
这类公司主要与传统市场中的老牌企业竞争,例如提供出租车服务、夜间租房、商业和消费贷款、零售购物、电影、通讯及社交机会等。但与它们的实体竞争对手不同,数字化公司没有高昂的固定成本。它们也创造了互联网时代之前不存在的全新市场领域,如谷歌之于搜索,eBay之于在线拍卖。所有数字化公司都依赖于海量数据处理,通常通过机器学习系统增强,以进行实时决策——其价值主张的核心正是商业分析。

在本节中,我们一起学习了美国大数据生态系统中五类主要公司的特点、商业模式及其对数据分析的依赖程度。理解这些类别有助于我们看清商业分析在不同类型组织中的应用和职业机会。
023:传统战略商业咨询 🏢

在本节课中,我们将要学习传统战略商业咨询公司的运作模式、核心业务以及它们如何依赖数据分析来为客户提供价值。我们将了解不同类型的咨询公司及其对商业分析师和数据科学家的需求。
战略商业咨询公司为希望在不断变化的全球数字经济中保持竞争力的公司提供关于最佳实践的专家建议。
战略咨询公司的大部分工作基于收集和分析数据,并利用这些数据向客户推荐业务流程的改进方案。为此,它们需要大量的商业分析师。这类公司中规模最大的包括德勤咨询、麦肯锡、波士顿咨询集团和贝恩公司,其年度咨询收入分别超过60亿、50亿、30亿和20亿美元。
通常情况下,商业分析师处理的数据属于客户。咨询公司或客户内部的技术人员会从客户已存储在各种数据库中但未动态使用的数据中提取信息,通常以Excel电子表格的形式提供给商业分析师。
商业分析师研究这些数据,并应用各种模型来发现业务流程改进的机会。

上一节我们介绍了通用战略咨询公司,本节中我们来看看一种特殊类型的咨询公司。
这类咨询公司是那些围绕特定行业或市场领域,开发了自有专有数据库及相关预测模型的专业咨询公司。这类咨询公司往往需要更多的商业数据分析师,有时也需要数据科学家。

以下是这类咨询公司的几个例子:
- 征信机构:它们收集人们的债务和还款历史信息,并将这些信息出售给银行和其他提供信贷的机构,以帮助它们决定是否应该向某人提供贷款。
三大领先的征信机构是益博睿、环联和艾克飞。第四家公司名为FICO(前身为Fair Isaac),它利用征信机构最初收集的数据生成一个单一的数字——FICO信用评分,用以预测信用价值。FICO分数的范围从300分(信用极差)到850分(信用极佳)。
FICO是最早的数据驱动预测分析公司之一。在美国,每天有超过2400万笔贷款决策使用其评分,这占全美所有贷款决策的90%。
除了征信机构,还有其他基于专有数据建立成功咨询业务的战略商业咨询公司。
另外两个例子是comScore和Argus信息与咨询服务公司。
- comScore:在获得用户许可的情况下追踪网络和移动端的点击流,观察流量去向,相当于网络领域的尼尔森收视率。comScore“衡量人们在数字世界中的行为”。该公司去年的收入为3.39亿美元。
- Argus:它整合了行业内大部分信用卡的交易、余额和还款数据。因此,它拥有征信机构所没有的交易级购买信息。征信机构只知道你在某张卡上欠了多少钱以及你是否逾期还款,但不知道你买了什么以及何时购买。
Argus建立关于消费者行为的模型,细分潜在客户,并帮助银行进行新信用卡的营销推广以及管理信用风险。Argus的收入未单独披露,但它是年收入18亿美元的Verisk Analytics的一部分。

本节课中我们一起学习了传统战略商业咨询的生态系统。我们了解到,无论是通用战略咨询公司(如麦肯锡、德勤),还是基于专有数据的专业咨询公司(如FICO、comScore、Argus),其核心都是数据收集、分析与建模,以驱动业务决策和流程优化。这些公司是商业分析师和数据科学家的重要雇主,他们利用从Excel表格到大型专有数据库的各种数据源来创造价值。
024:实体企业

概述
在本节课中,我们将探讨实体企业在数字经济时代面临的挑战与机遇。尽管数字技术飞速发展,但全球经济的大部分仍由实体商品的生产、运输和销售构成。我们将重点关注那些正受到数字公司严重威胁的传统行业,并介绍一套评估企业大数据文化成熟度的清单。
实体经济的现状与挑战
尽管数字技术呈爆炸式增长,世界经济的大部分仍然由制造实体商品构成。这包括将商品运输到所需地点,或在商店向公众销售商品。


我们显然无法讨论每一种类型的业务。因此,在本课程中,我们将重点关注传统实体经济的某些特定领域。这些领域目前正受到数字公司的严重威胁。这些领域通过采用最佳商业分析实践获益最大,而若停滞不前则损失最大。
受威胁的行业领域
受威胁的行业包括但不限于以下领域:
- 所有形式的消费者零售:包括书籍、电影、音乐、时尚、电子产品、杂货、家居用品。
- 金融服务:包括发行信用卡、向个人和小企业提供其他类型的无担保贷款、支付处理,以及作为投资顾问管理他人资金。
- 房地产:特别是酒店房间等短期住宿。
- 物流与运输:特别是世界各地的本地出租车行业。
实体企业的人才需求
所有规模的实体公司都需要一些商业分析师。但它们同时需要商业数据分析师和数据科学家。它们通常将大部分IT基础设施开发外包给顾问和供应商。但它们仍然需要一些拥有广泛技术IT项目管理经验的个人。
向大数据文化转型的过程在一些公司已经相当深入,这些公司正在进行重大的数据科学和软件开发工作。而另一些公司仍在试图弄清楚它们应该做什么。
大数据文化评估清单
以下是一个你可以用来评估一家公司在拥抱大数据文化方面进展程度的清单。该清单共有20个项目,其中19项与产品公司相关,14项与服务公司相关。随着时间的推移,这份清单无疑会演变,它代表了2015年至2016年的行业状况。
以下是评估清单的具体项目:
- 移动化与购买体验:提供其网站的移动版本,并在所有全球市场测试快速加载时间。它是否使用边缘缓存、Akamai等内容交付网络?你是否可以直接从Android和iOS的移动应用以及网页上购买产品和服务?
- 用户行为追踪:追踪访问者的完整点击流(在网站上的确切路径及每点停留时间),而不仅仅是统计独立访客或页面浏览量。
- 新用户转化定义:将新网站访问者的转化定义为两个步骤:首先,个人注册并提供姓名和电子邮件;其次,他们成为产生收入的客户。
- 网站功能优化:对网站功能进行持续的A/B测试,以优化转化为收入的比率。
- 广告效益管理:知道如何实现并维持较高的谷歌广告排名。知道每次点击付费网络广告能盈利的最高价格。这需要同时知道每次点击的收入转化率和新客户的平均生命周期价值。
- 客户互动激励:为客户提供有意义且有效的激励,促使他们在到店访问间隙与公司在线互动。
- 个性化实时促销:理想情况下,基于对客户特定历史的偏好分析,向个人提供实时在线促销优惠。
- 产品公司:线上查库存:(仅适用于产品公司)允许客户在线时查看其本地商店货架上的商品。
- 产品公司:线上下单,门店提货:(再次仅适用于产品公司)允许客户提前下单并在商店提货。
- 产品公司:快速配送合作:与第三方购物和配送服务合作,实现从最近商店当日或更短时间内的配送(针对产品公司)。
- 服务公司:服务交付速度:(服务公司的等效项)确保无论你提供何种服务,你完成服务交付的速度都与你的在线竞争对手一样快。例如,如果你提供贷款,借款人收到钱的速度是否与从你的在线竞争对手那里一样快?
- 客户信息整合:追踪与客户的所有互动(销售、投诉、网络互动),将其归集在数据库中的单一客户记录ID下,并在与客户互动时“准时”提供这些信息。
- 会员与忠诚度计划:通过增值会员和忠诚度计划(如Costco会员或Amazon Prime)识别经常性收入的机会。
- 销售点定制化:在结账时,根据特定客户过去的购买兴趣,为其提供针对额外产品或服务的定制优惠券。
- 高价值客户培育:制定客户激励措施,以奖励和培养你的最高消费客户(在拉斯维加斯他们称之为“鲸鱼”,或航空公司中的“行政白金卡”客户)。
- 客户流失管理与召回:持续跟踪客户流失率,并对静默一段时间的客户进行跟进,提供特别激励以吸引他们回归。
- 产品公司:门店级库存跟踪:(仅适用于产品公司)在门店级别跟踪所有库存单位,以防止库存天数过长。
- 产品公司:缺货与需求研究:(产品公司)跟踪所有零库存商品以消除空货架,并进行研究以识别客户需要但未进货的产品。
- 产品公司:精细化库存管理:(产品公司)按门店、地区、季节甚至星期几来调整单个商品的库存水平,以平衡最小化库存天数和浪费与避免缺货。
- 临期促销与减损:提供有效的降价和最后一刻促销计划,以销售任何可能浪费的库存(无论是产品还是酒店房间或机票等服务)。
清单评分与解读
以下是你可以为公司评分的方法:
- 对于产品公司(共19项):
- 16项或以上:非常好到优秀。
- 14项:良好,但需要改进。
- 11项:及格。
- 少于11项:你的公司落后了,需要考虑改变其商业文化,或直接退出面临数字竞争的市场。
- 对于服务公司(共14项适用):
- 10项或以上:非常好到优秀。
- 8到10项:良好,但需要改进。
- 7项:及格。
- 6项或更少:公司再次落后,需要改变其商业文化,或考虑退出其正在竞争的数字市场。

总结
本节课中,我们一起学习了实体企业在数字经济背景下的核心处境。我们明确了受数字技术威胁最严重的传统行业领域,并详细探讨了实体企业对数据分析人才的需求。最重要的是,我们掌握了一套包含20个要点的评估清单,用于系统性地衡量一家公司在构建大数据文化方面的成熟度。通过这个清单,企业可以识别自身优势与不足,从而制定有效的转型策略,在数字时代保持竞争力。
025:巴诺书店案例研究 📚

在本节课中,我们将通过巴诺书店的案例,分析一家实体企业在面对数字化竞争对手时的挑战与转型策略。我们将探讨其历史困境、应对措施以及最新的战略调整,理解商业分析在现实竞争中的应用。
在某些情况下,实体竞争对手在面对数字化公司的竞争时,显然会陷入困境。巴诺书店是美国一家非常优秀的实体书店连锁店。
詹姆斯·里吉奥于1971年收购了巴诺书店,当时它在纽约市只有一家门店。在随后的25年里,他将公司发展成为一家拥有数百家门店、收入达数十亿美元的财富500强企业。
但自1995年亚马逊网站上线以来,巴诺书店在长达20年的时间里,一直难以找到应对亚马逊的有效策略。据我统计,即便是现在,巴诺书店在19项商业分析有效竞争标准中,也只符合9项。
巴诺书店的股价在1995年为37美元。十年后的2005年,股价仍是37美元。又过了十年,到2015年,其股价跌至27美元,跌幅达28%。相比之下,在这20年间,标准普尔500指数年化涨幅超过8%。
过去20年,亚马逊逐渐侵蚀了巴诺书店的生机与活力。自亚马逊上市以来的17年里,其股价上涨了350倍,年化回报率超过32%。
2014年4月有新闻报道,巴诺书店董事长伦纳德·里吉奥披露了他在五个月内的第二次股票出售,将其持股比例从去年的30%降至20%。消息公布后,巴诺书店股价下跌了12%。Maxim集团分析师约翰·金克近期对巴诺书店持乐观态度,他将此次出售描述为“负面”信号。
巴诺书店曾尝试推出自己的电子阅读器Nook来与亚马逊的Kindle竞争,并运营自己的网站BN.com。但这两项努力似乎都收效甚微。可以理解的是,公司并不想将自己转变为亚马逊的纯在线竞争对手,因为在这个市场它没有竞争优势。Nook和BN.com的努力并未增强巴诺书店与亚马逊之间的竞争差异化,反而削弱了它。

在我看来,巴诺书店的基本价值主张是作为一个人们可以聚集的场所,也许可以坐下来学习或喝杯咖啡,同时被书籍包围。这里有人群观察的乐趣,以及你可能因为一本书而结识某人的机会,这是在亚马逊上永远无法获得的体验。也许长期生存下去的唯一方法,是说服人们在进门时支付入场费,就像提供现场乐队的酒吧一样。事实上,巴诺书店是一种老式的俱乐部。本质上,人们付费是为了与喜欢或热爱书籍的其他人在一起,同时被大量昂贵的实体库存所包围。目前,25美元的巴诺书店会员资格提供10%的折扣,但这并非强制性的。也许更高且强制性的会员费会将巴诺书店完全推向独家俱乐部的地位。
你认为巴诺书店可以做些什么来生存下去,并希望有朝一日再次繁荣?我对你的想法和评论很感兴趣。
上一节我们回顾了巴诺书店面临的历史挑战与初步应对。本节中,我们来看看该公司近年来的所有权变更与战略转型。
大家好。十年前,当我首次将巴诺书店作为反面案例进行研究时,该公司似乎处于不可逆转的衰退中。这是截至2025年6月的最新情况,该公司获得了大量正面宣传,并宣称已扭转局面。
到2019年,尽管公司年收入仍超过30亿美元,但其盈利仅约为380万美元,勉强达到收支平衡,股价低于每股5美元。那年,股东们选择了退出。他们将公司100%的股份出售给了一家名为埃利奥特投资管理的私募股权公司。他们以6.83亿美元的价格出售了公司,但其中2亿美元(或可能更多)并未支付给股东,而是用于偿还公司现有债务。因此实际上,一家收入30亿美元的公司以不到5亿美元的价格出售。这对股东来说不是一个好结果,简直糟糕透顶。于是问题出现了,这对埃利奥特投资管理公司来说是一笔划算的交易吗?
一旦公司私有化,其股票就不再在美国证券交易所公开交易。因此,美国证券交易委员会不再要求其提交年度和季度财务报告。所以我们实际上没有详细可靠的数据来支持其财务已好转的说法。
我们确实有一个粗略的业绩指标,即运营门店的数量,埃利奥特已将其公开。该公司在2019年拥有627家门店,低于2005年高峰期的726家。疫情期间所有门店都关闭了,有些再也没有重新开业。公司不宣布关店,但自2022年以来,他们开始宣布新店开业:2022年16家,2023年30家,2024年58家,并计划在2025年开设60家。2024年它有604家门店。因此今年,它最终应该达到并超过被出售那一年的门店数量。
自埃利奥特接管以来,媒体上有很多关于公司实体店吸引力和效率大幅提升的报道。门店似乎吸引了更多的随机进店顾客。关于门店变化的在线评价普遍是积极的。
以下是我在Reddit上找到的一个近期热情洋溢的例子,它涵盖了公司的所有关键宣传点:“我们有一家新的巴诺书店,它太棒了。布局完全改变了,有非常吸引人的展示区、休息区、星巴克、主题活动夜。我们想买新书时就去那里。通常是晚上。浏览各个区域,找到当下适合的书,这种感觉很好。它是一个极佳的‘第三空间’。” 😊 当然,这可能是埃利奥特管理公司的公关公司写的。但我们假设它是真实的。
那么,发生了什么变化?2019年,埃利奥特聘请詹姆斯·道恩特担任CEO。道恩特最初是一家小型独立书店的业主经理。他于1990年在伦敦开设了Daunt Books,是一家专注于旅行书籍的特色书店。Daunt Books仍在营业,在伦敦和牛津有六家分店。这听起来是个有趣的地方:书籍不是按传记、历史、烹饪书、旅游指南等传统类别分类,而是按国家组织。这很方便浏览。2011年,道恩特出任英国书商Waterstones的CEO,该公司于2018年也被埃利奥特收购,并且已在一定程度上成功应对了市场变化。
2019年开始担任CEO时,道恩特评估了巴诺书店的状况,并称其“极其无聊”。他利用2020年疫情期间门店被迫关闭的时期,重新装修了内部空间。他开始允许更多的门店布局和装饰个性化差异,同时租赁更小、更私密、可能也更便宜的零售空间。
道恩特对巴诺书店的商业模式进行了几项关键变革。
以下是其核心变革举措:
- 停止接受促销付款:公司长期以来直接从出版商那里收取款项,根据所谓的“合作广告协议”,以换取显眼展示他们的畅销书或他们试图打造成畅销书的书籍。全国所有门店都被要求为这些赞助书籍提供大量的展示空间,无论这些书最终是否畅销,而且在特定地点往往并不畅销。这种对促销付款的依赖导致了巴诺书店千篇一律、缺乏个性的沉闷感。
- 停止销售杂项非媒体商品:根据《经济学人》杂志,玩具、背包和瓶装水被下架了。
- 赋予门店经理更多自主权:最根本的是,道恩特给予个体门店经理更多权力,让他们自行决定订购什么书籍以及订购多少。他实际上告诉经理们运用自己的判断力,努力使库存和店面陈列与特定顾客的本地兴趣相匹配。他允许他的经理们像独立书店的业主经营者一样行事,假设他们比总部更了解面对面接触的读者,能够识别并订购顾客会喜欢和购买的书籍。😊
员工们现在也会在书架上张贴便条,推荐他们最喜欢或新推荐的书,这在独立书店很常见,但对于大型全国连锁店来说却很不寻常。
这种本地化可以非常具体。我读到的一篇文章举例说明了曼哈顿上东区和上西区的巴诺书店门店进货和销售的书籍非常不同。另一个例子是,当他们开始允许本地经理响应本地需求时,其全国漫画和图像小说的销售额增长了500%。这个例子尤其能说明问题,因为它表明前管理层不仅与本地兴趣脱节,也与全国趋势脱节。
道恩特大力强调并告诉媒体,他注重客户体验。公司每家门店都预留空间,举办围绕阅读展开的频繁社区活动,并鼓励员工对顾客在店内浏览和阅读持宽松态度。用道恩特自己的话说,目标是让门店成为“一个你带着愉悦、带着惊喜发现书籍的地方,这种体验是线上无法复制的”。😊
那么,规模更小、更以社区为导向、经理更自主的门店是否能带来更高的盈利能力?毕竟,这才是关键指标。在埃利奥特决定让公司再次上市之前,我们无法确切知道,届时它将需要披露过去五年的财务业绩。
但很明显,试图在价格和库存范围上与亚马逊竞争是行不通的,因为亚马逊在这方面永远占优。巴诺书店最大的希望是完全拥抱客户发现新奇有趣书籍的体验。😊 而这最好是通过亲身到店实现。
本节课中我们一起学习了巴诺书店的案例。我们回顾了其实体书店在亚马逊数字化竞争下长期面临的困境,分析了其股价表现和早期应对措施的不足。接着,我们探讨了公司在被私募股权收购后的战略转型,包括停止依赖出版商促销、聚焦核心书籍商品、以及最关键的下放采购权以实现门店本地化和社区化。这个案例生动地展示了,当无法在成本或规模上竞争时,实体企业可以通过深化独特的线下体验和社区连接来构建差异化优势。商业分析不仅在于解读数据,更在于洞察本质并制定契合自身优势的竞争策略。
026:聚焦软件与IT系统集成的战略咨询 🖥️

在本节课中,我们将学习战略商业咨询的第二种类型——专注于软件与信息技术系统集成的咨询公司。我们将了解这类公司的特点、市场中的主要参与者,以及它们如何通过引入新技术来驱动整个行业的变革。
上一节我们介绍了广义的战略商业咨询,本节中我们来看看专注于信息技术领域的咨询公司。
第二种类型的战略商业咨询公司,专注于提供关于变革业务流程的建议,其中包括建议咨询方帮助客户构建和安装新的信息技术基础设施。
专注于IT的咨询公司是一个较小的细分市场,但它们是推动全球大数据文化普及的最重要力量之一。
这类公司需要一些商业数据分析师,但更需要数据科学家和经验丰富的软件工程师团队。
以下是该市场的全球领导者及其概况:
- 埃森哲:总部位于爱尔兰,年收入达320亿美元。
- 帕兰提尔:2004年成立,总部位于加州帕洛阿尔托。2014年收入估计在5亿至5.8亿美元之间。它增长迅速,是美国估值最高的三家私营公司之一,已筹集超过10亿美元的股权投资,最新估值估计超过150亿美元。该公司自称“专注于分析,但我们不亲自做分析,我们编写软件,使各自领域的专家能够从信息中提取洞察”。
- Opera Solutions:同样成立于2004年,总部位于纽约市。该公司自称“将高级分析应用于大数据流以提取预测模式”。它未披露收入,规模明显小于帕兰提尔,但已筹集超过1.2亿美元的风险投资,在全球拥有超过500名员工。
了解了主要公司后,我们退一步看看全局。信息技术咨询公司所做的是将实现竞争优势的最新技术方法引入特定的垂直市场,例如零售杂货店。
以下是它们推动行业变革的典型过程:
- 识别早期采用者:它们在该市场中识别出一家具有早期采用者文化的公司,这家公司愿意承担一些风险,以换取率先实施新技术的潜在优势。
- 成功示范:假设这家公司成功实施了某种形式的、更好的数据驱动决策,并开始产生更高的收入或更好的利润率。
- 引发竞争升级:此时,该公司的直接竞争对手除了升级自己的IT系统外别无选择,否则将面临淘汰。
- 解决方案复制:帮助了第一家公司的同一家战略咨询公司,现在向其直接竞争对手销售同类技术解决方案会容易得多。
- 行业标准化与循环:很快,一个行业中所有幸存的公司都拥有了大致相同类型的信息技术能力,而无休止的升级循环就此重复。
这些升级过程往往伴随着各种流行术语,而“大数据”是其中最大的一个。但在这种情况下,这种宣传是合理的。

本节课中,我们一起学习了专注于软件与IT系统集成的战略咨询公司。我们认识了该领域的代表企业,如埃森哲、帕兰提尔和Opera Solutions,并理解了它们通过为行业内的“早期采用者”提供先进技术解决方案,进而推动整个行业技术升级和竞争格局变化的商业模式。这个过程也解释了“大数据”等技术概念得以迅速普及和落地的重要原因。
027:硬件与软件公司 🖥️💾

在本节课中,我们将探讨硬件与软件公司的商业模式、成本结构以及它们在信息技术产业中的层级划分。我们将了解这些公司如何在大数据时代生存与发展,并认识该领域的主要参与者。
硬件与软件公司会雇佣一些商业数据分析师和数据科学家。
但他们的主要需求是熟练的软件工程师和技术项目经理。
公司的价值取决于专有技术的高效开发与交付。
硬件和软件具有不寻常的价格动态。技术开发具有很高的固定成本。
而可变成本通常接近于零。开发一个复杂的企业软件应用,其第一个可销售版本的成本可能高达500万美元。
但第二个以及之后的每一个额外副本,其成本基本上可能只需一美分。
一个新的半导体芯片可能在一个造价50亿美元的晶圆厂中生产。
但该生产线上单个芯片的可变成本。
仅仅是原材料的成本,可能只是价值几美分的纯净硅砂。
大数据文化之所以成为可能,完全是因为当今存储和处理电子信息的成本极低。
如今低得离谱的计算成本,是商业硬件和软件市场50年来激烈价格战的结果。
这些市场由高固定成本和极低可变成本这一不寻常的动态所驱动。
价格战往往将任何商品化产品或服务的价格压低至接近可变成本的水平。
换句话说,大多数市场参与者都在亏损。只有少数能够生存下来。
就我个人而言,在我的职业生涯中见证了数据存储成本下降了百万倍。在1993年。
也就是我创立第一家软件公司的那一年,我曾受邀参观当时世界上最大的商业数据库。
该数据库由位于俄亥俄州代顿的米德数据中心拥有。他们通过拨号调制解调器提供远程访问,访问存储在占地一英亩、运行Unix系统的大型机上的1TB文本数据。
存储那1TB文本的硬件和软件价值超过1亿美元。而现在。
我只需花费64美元,就可以在我的便携硬盘上存储1TB数据。
为了生存,硬件和软件公司要么需要找到方法,成为商品或服务的绝对最低成本提供者。
要么就需要在一个增值的品牌利基市场中占据如此主导的地位,以至于当更低成本的替代品不可避免地出现时,放弃主导品牌所带来的感知转换成本超过了其带来的收益。
接下来,我们将简要介绍在这场达尔文式竞争中生存下来的主要公司。
按照它们主要关注的信息技术堆栈层级来组织。
这些大约20家公司提供了大数据所需的大部分核心技术。
信息技术基础设施通常用一个“堆栈”来描述。
我们高度简化的IT堆栈只有三层:底层是硬件。
中层是数据库和企业软件。顶层是桌面商业软件。
在堆栈的底层是硬件。
芯片和其他组件被组装成机器、服务器和路由器。在这一层级。
是以英特尔为首的半导体芯片公司,其收入为550亿美元。
还包括德州仪器,收入130亿美元,以及AMD,收入46亿美元。
思科是互联网路由器的主要提供商,收入为490亿美元。
一个非常特殊的硬件公司是苹果,收入为2240亿美元。
是世界上最大的IT公司。实际上,按市值计算。
苹果的规模是世界第二大公司埃克森美孚的两倍。
苹果以其成功控制整个堆栈而闻名,从芯片和显示器,到操作系统。
应用程序、外观和感觉、移动设备,一直到iTunes和其自有云存储等专有增值服务。
在堆栈的中层是企业级、可扩展的操作系统、网络服务器软件。
大型关系型和分布式数据库,当然还有大型企业软件应用。
这是只有专业人士才会交互的软件。用户友好的界面往往不存在。
并且很少(如果有的话)考虑让产品直观或易于使用。
这一层的主要目标是可扩展性,当然还有安全性。
企业软件层面的领导者是IBM,收入为860亿美元。
主要专注于为公司构建企业系统。其次是甲骨文。
收入为380亿美元。专注于能够处理高并发流量的大型数据库,以及人力资源。
客户关系管理、财务和供应链领域的企业软件。接下来是SAP。
其供应链和财务系统收入为210亿美元。
一个较小的参与者,也是甲骨文在商业数据库领域最后幸存的竞争对手之一,是Teradata,收入为27亿美元。
赛门铁克,生产企业安全软件,收入为67亿美元。
VMware,生产允许在单台机器硬件上运行多个操作系统和并发用户的企业软件。
收入为60亿美元。一个有趣的混合型公司。
提供非常复杂的企业级软件来管理客户关系管理和销售流程的所有方面。
但将其软件完全作为托管服务提供的是Salesforce.com,收入为41亿美元。
然后是第三层,用户友好的商业桌面软件应用程序,使知识工作者能够访问和处理公司数据。
这一层目前由微软主导,其Microsoft Word、Excel。
PowerPoint等产品收入为860亿美元。稍偏技术的统计和建模软件包包括SAS,收入约为40亿美元。
以及Matlab,由Mathworks私有持有,收入约为7.5亿美元。
此外,还有数据可视化工具,如Tableau,收入为4.68亿美元。
以及数字图像处理工具,如Adobe Photoshop,收入为435万美元。
所有这些硬件和软件公司都有大数据战略。
微软正在进军目前由亚马逊网络服务主导的托管软件即服务领域。
IBM和甲骨文都有云服务产品,IBM甚至在云端托管SAP企业应用。
所有这些公司都试图重塑自我,提供用于人类或计算机驱动决策的即时和实时数据。
大多数公司都有广泛的机器学习和预测分析计划。例如,IBM的Watson。
以及微软的Azure项目。

本节课中,我们一起学习了硬件与软件公司的核心商业模式,其特点是高固定成本和极低可变成本。我们通过一个简化的三层模型(硬件层、企业软件层、桌面应用层)梳理了信息技术堆栈,并认识了各层级的主要公司,如英特尔、苹果、IBM、甲骨文、微软等。最后,我们了解到这些公司正积极向云计算、大数据分析和人工智能领域转型,以适应技术发展的趋势。
028:数字化企业 🏢💻

在本节课中,我们将要学习什么是数字化企业,并了解几个通过创新商业模式和数据分析技术颠覆传统行业的领先公司案例。
我们选择认定为数字化企业的公司,是那些运用新商业模式颠覆传统市场或开创全新市场的领导者。这些公司的驱动力在于开发新的信息技术,包括软件和商业分析工具,主要供其内部使用。由于它们对实时数据处理和机器学习有卓越的掌握,其销售的产品或服务通常能比竞争对手提供得更好、更快、更便宜。
因为它们正在构建全新的系统,这些公司需要软件工程师,其次也需要数据科学家。它们对商业分析师和商业数据分析师的需求相对较少。
上一节我们介绍了数字化企业的核心特征,本节中我们来看看几个具体的行业领导者案例。
以下是几个数字化企业的例子:
-
亚马逊:它彻底改变了多个零售行业,从图书开始,扩展到电子产品和其他商品。但最近,其最大的影响在于名为亚马逊网络服务(AWS)的托管存储和处理业务。在亚马逊696亿美元的收入中,有超过60亿美元来自其庞大的服务器农场。这些服务以可变成本租赁的方式提供给全球2000强公司、中型企业和许多知名初创公司(包括Airbnb和Uber)。亚马逊网站在2015年夏天市值超过了沃尔玛,成为全球最大的零售商。我们之前讨论过亚马逊出色的实时用户体验定制以实现收入优化。亚马逊还通过其Prime会员计划推行经常性收入忠诚度计划模型,并在全球范围内作为低成本的数据和处理托管服务提供商参与竞争。或许最非凡的是亚马逊在云计算领域的早期主导地位。据传亚马逊迄今已构建了超过50万台定制Linux服务器。其云计算收入估计超过了该领域三个最接近的竞争对手(IBM、谷歌和微软)的总和。
-
广告支持的免费信息服务公司:许多互联网公司免费提供信息和服务,通过销售定向广告或在搜索结果中获得更好位置来赚钱。这些公司利用分析技术,既使其服务尽可能有用和吸引人,也用于识别用户以针对他们开展特定的广告活动。该领域的领导者首先是谷歌,其698亿美元收入中有超过500亿美元来自定向广告。其次是Facebook,其2014年135亿美元的收入主要来自广告。第三是LinkedIn,它拥有多个收入来源,但其29亿美元收入中至少有20%来自定向广告。第四家主导住宅房地产租赁和销售列表、房地产信息和指标领域的数字信息公司是Zillow,其3.86亿美元收入主要来自广告和展示位。

接下来,我们将目光转向共享经济领域,看看两家同样以数据分析闻名的创新公司。
以下是两家共享经济领域的数字化企业:
-
Uber:它与传统出租车公司竞争。Uber以数字方式连接司机和需要乘车的人,允许双方查看彼此的评论,并允许乘客查看最近Uber车辆的距离地图、最快可用车辆到达所需时间,以及在出发前获得前往指定地址的承诺固定价格。Uber还在汽车需求超过供应时收取更高费用,这是一种优化可用汽车库存清理的可变定价方法。Uber司机拥有自己的汽车并作为独立承包商工作,因此Uber的资本支出极低。Uber通过匹配司机和乘客收取20%的佣金。2015年,乘客总支出为100亿美元,Uber的佣金收入预计将超过20亿美元。
-
Airbnb:它与传统酒店竞争。Airbnb将希望出租空置公寓甚至房间的房主与寻求更个性化旅行体验的旅行者匹配起来。它也提供房主和租客的相互评价,提供详细的地图功能以识别特定区域的可用房源,并为房主提供预测分析工具,以根据位置、星期几、一年中的时间等因素优化他们的收入。Airbnb平均收取11%的客房租金佣金,因此2014年约40亿美元的预订额带来了约4.2亿美元的收入。


本节课中我们一起学习了数字化企业的定义及其核心特征,并深入分析了亚马逊、谷歌、Facebook、Uber和Airbnb等领先企业如何利用先进的信息技术、数据分析和创新的商业模式,在各自领域取得颠覆性成功。理解这些案例有助于我们认识数据分析在现代商业中的强大驱动力。
029:网络营销指标概述

在本节课中,我们将要学习网络营销指标的核心概念。这些指标是衡量网络营销活动效果、并直接与增加销售收入相关的关键工具。
什么是网络营销指标?📊
网络营销指标是营收指标。与它们相关的分析可以直接带来销售额的增长。
这些指标是动态的。即使你对网站主页文本或为搜索结果中的赞助链接购买的关键词做出微小改动,也可能导致这些指标发生快速且显著的变化。
网络营销概述
为了给网络指标提供一个背景,我们首先快速概述一下网络营销。
就我们的目的而言,营销被定义为一种有意的、可衡量的过程。这个过程首先是为特定的品牌、产品或服务在目标人群中创造积极的认知和兴趣,然后持续地增加这种认知和兴趣。
理解目标人群
所谓目标人群,是指具有共同特征的一群人。例如,年龄都在18到35岁之间,来自同一个国家或地理区域等。
由于营销需要有效利用有限的资源,营销人员会努力将精力集中在那些成员比普通人更有可能了解产品或服务、购买它并最终成为高价值回头客的群体上。
案例分析:从本地到全球的营销挑战
假设你在北达科他州的特罗特斯开了一家披萨店,并在橱窗上挂了一个招牌。你几乎可以确定,任何想要吃披萨的特罗特斯居民都会从你这里购买。你最近的竞争对手在51英里外的蒙大拿州悉尼。在这里,你的目标人群就是住在特罗特斯的人。特罗特斯只有770名居民,在这样一个小镇上,几乎可以肯定每个人都会在几天内知道新开了一家餐馆。你的新顾客的转换成本——即去别处买披萨所需的时间和麻烦——在这种情况下,开车往返悉尼需要两个小时,这个成本非常高。因此,如果你的披萨做得还算不错,你很可能会培养出一批忠实的回头客。
现在,想象一下你在一个拥有60亿人口的城市开了一家新的披萨店。这听起来不错,有很多潜在客户。但坏消息是,当你开业时,你所在的街区已经有7万家其他披萨店开业,还有数百万家其他餐馆和商店在争夺注意力。这就是网络营销的世界。
如何定义网络营销中的目标人群?🎯
你应该尝试在这60亿人中识别出一个更小的群体,即你的目标人群。这个群体应该更有可能想要披萨,更重要的是,更有可能想要你的披萨。他们是一群比普通人更有可能对你独特的信息——即你与其他7万家披萨店有何不同——做出积极回应的人。
你传达差异的信息就是你的市场差异化。其核心思想是将你的市场差异化与一个目标人群相匹配。
案例分析:定义差异化与目标市场
假设你的差异化优势在于:你提供严格的素食披萨,并且你开发了一种特殊的冷冻工艺、运输箱和国际特许经营网络,使你能够将冷冻披萨运送到地球上的任何地方,并在两天内送达。
那么,你理想的目标市场可能是:已知喜爱披萨的人;出于健康、文化或宗教原因对严格素食有强烈偏好或需求的人;目前居住地附近没有素食披萨供应的人;能够负担得起包含运费在内的奢侈品的人;以及正在为未来计划特殊餐食,而不是现在立刻想吃披萨的人。
当然,人们并不会已经按照你所有理想的目标特征被整齐地分类好。你通常需要与他人预先定义的类别合作,这些就是所谓的人口统计类别。
利用人口统计数据定位
利用现有的类别,你可以找到尽可能接近你理想目标客户的目标人群。在这个案例中,你可以定义一个目标人群:收入高到足以负担奢侈品的人,以及居住在远离披萨店的偏远地理区域的人。
有时可以获得更具体的人口统计筛选条件。例如,你当然可以向Facebook上喜欢素食社区的724,000人做广告。从其他来源,你可能可以购买到那些因其工作职责而经常为他人购买奢侈餐食的人的姓名和电子邮件地址,例如办公室经理、企业销售代表、派对策划师等。
思考与拓展

你认为还有哪些其他职位可能与订购两天内送达的奢侈披萨有关?你还能想到哪些创造性的方法,可以利用人口统计数据来识别你理想目标市场的成员?
总结


本节课中,我们一起学习了网络营销指标的基础知识。我们了解到这些指标是动态且与收入直接相关的。我们探讨了营销的定义、目标人群的重要性,并通过一个披萨店的案例,从本地市场过渡到全球性的网络市场,深入理解了如何根据市场差异化来定义和寻找目标人群。最后,我们讨论了如何利用现有的人口统计类别和创造性思维来精准定位潜在客户。掌握这些概念是进行有效网络营销分析的第一步。
030:关键词广告指标 📊

在本节课中,我们将学习网络营销中的一个核心工具——关键词广告(AdWords)。我们将了解其运作机制、关键指标以及如何评估广告活动的财务可行性。
概述
关键词广告是触及对您产品感兴趣人群的一种精准方式。它由谷歌等平台以拍卖形式提供。理解其计费方式、排名机制和关键绩效指标,对于有效管理广告预算和衡量投资回报至关重要。
广告拍卖机制
上一节我们介绍了关键词广告的基本概念,本节中我们来看看它的具体运作方式。谷歌的广告拍卖市场按以下流程工作:
首先,当用户在谷歌输入搜索词时,系统会识别出广告主已针对该搜索主题出价的关键词。从计算角度看,这一步并不简单。例如,用户搜索“紧急宠物护理”,系统可能会匹配到“兽医医院”和“动物医院”这两个关键词。
广告主通过为其感兴趣的关键词设置每次点击最高成本来参与竞价。其公式为:
Max CPC = 广告主愿意为一次点击支付的最高金额
CPC竞价有时也称为按点击付费。通常,获胜的广告出价会低于广告主设置的最高CPC。实际的每次点击成本通常在1到2美元之间。实际CPC的计算公式较为复杂,我们暂不深入讨论。目前,最昂贵的关键词广告点击价格属于保险、律师和抵押贷款领域,分别约为54美元、47美元和47美元。
广告排名与质量得分
谷歌仅在有人点击广告链接进入广告主的着陆页时才会获得收入。因此,谷歌会对展示的广告链接进行排名。排名高的链接能获得更多关注和点击。
谷歌可以通过对链接进行排名来最大化其收入,排名依据是 实际CPC 乘以 预期点击率。实际上,谷歌的计算与此非常接近,但它使用一个名为 质量得分 的指标,该指标不仅包含预期点击率,还包含另外两个因素:广告相关性 和 着陆页体验。
用谷歌的话说,这意味着您的广告文本和着陆页在用户搜索上下文中的质量。这听起来可能有些神秘,但引入这两个额外权重因素的目的是防止具有欺骗性的误导行为,以保护谷歌的品牌声誉。
例如,假设一家酒类商店决定购买与“紧急宠物护理”相关的关键词广告,理由是宠物生病的主人可能需要喝一杯。谷歌会自动分析广告链接的文本以及该链接指向的网页(即着陆页)的文本。如果其中任一文本的主要内容与动物医疗护理没有直接关系,那么该酒类商店的这次出价就会获得非常低的质量得分。
谷歌的目标是提供与谷歌非赞助(自然)搜索结果中排名最高的网页,在主题、质量和点击率方面尽可能相似的赞助链接着陆页。
为了避免低质量得分,经验法则是:保持真实。确保您的着陆页内容与您的关键词直接相关,反之亦然。
以下是保持高质量得分的要点:
- 广告与关键词一致:广告文案应准确反映所购买的关键词。
- 着陆页内容相关:着陆页应提供与广告承诺直接相关的实质性信息。
- 避免无关引流:不要试图在主页上销售广告或将用户引导至其他不相关主题的链接。
关键绩效指标与计算
一旦我们在关键词竞价方面积累了一些经验,就会获得关于我们支付的实际每次点击成本的数据。我们可以追踪那些通过赞助链接访问我们网站的用户,并确定其中最终至少购买一次我们产品的用户百分比。这个百分比就是我们赞助链接的 转化率。
实际CPC 除以 转化率,得到的就是我们通过赞助链接渠道获取新客户的 客户获取成本。其公式为:
客户获取成本 = 实际CPC / 转化率
有些客户可能只购买一次,有些则会成为产生重复收入的客户。一旦我们有足够的转化数据来了解每个转化客户随时间的平均购买模式,我们就可以估算每个客户的 终身价值。LTV代表了来自该客户的所有未来收入的现值。
终身价值有多种计算方式。KISSmetrics制作了一份出色的信息图,我们将在补充材料中提供链接,同时在术语表中也会给出一些不同的计算公式。
财务可行性分析
假设我们披萨业务的每个客户终身价值是500美元,理论上,在转化率为2%的情况下,只要每次点击成本不超过10美元,我们仍然可以盈利。然而,这个标准计算在我看来有些误导性。
除非您的公司现金流已经非常健康,否则您的目标应该是让客户获取成本低于客户第一年的平均收入。因此,如果我们披萨业务每个新客户第一年的平均销售额是85美元,而我们以2美元的实际CPC和2%的转化率进行广告,那么我们为获取每个客户支付了100美元的现金,但预期收入只有85美元。
这具有潜在风险。这位客户终身来看可能是有利可图的,但别忘了埃格烘焙咖啡的教训:不要在通往财富的路上耗尽现金。我们需要将CPC控制在1.70美元以下,才能在一年内收回广告活动的现金支出。即便如此,我们的现金流可能仍为负,因为85美元是平均总收入,而不是来自该客户销售的正面现金流。
总结

本节课我们一起学习了关键词广告的核心机制。我们了解了广告拍卖如何工作、谷歌如何通过质量得分对广告进行排名,以及如何计算客户获取成本和评估其相对于客户终身价值及短期现金流的财务可行性。关键在于保持广告、关键词与着陆页内容的高度一致性,并密切关注转化率和获取成本,以确保营销活动的可持续性和盈利能力。
031:网络营销细分策略 🎯

在本节课中,我们将学习如何利用现代网络流量分析进行客户细分,以制定更精准、更有效的营销策略。我们将探讨细分的重要性、可用的细分指标,以及如何根据分析结果优化营销资源分配。
在我刚开始经商时,我对营销人员并没有太深的印象。在我看来,他们所做的只是重复我的想法,然后加上“细分”这个词。但随着现代网络流量分析的发展,细分策略真正展现出了其价值,营销也因此变得更加严谨和实证化。
我们希望识别出那些转化率高、甚至能带来高复购率和终身价值的访客所共有的特征。我们知道,客户的“平均终身价值”这个概念有些过于简化。客户类型多种多样。有些客户不仅复购率高,而且对我们的产品非常满意,并会向他人推荐。另一些则是只购买一次的一次性客户,我们吸引他们可能甚至会亏本。还有一些是我们宁愿没有的客户,他们不断抱怨,并要求对他们购买的所有产品退款。
通过将客户细分为不同群体并识别其共同特征,我们可以弄清楚哪些类型的访客最终会成为我们的最佳客户,并专注于吸引更多类似的访客。这是一种相当复杂的细分形式。
以下是我们可以用来细分现有客户和潜在客户的一些指标类型:
访客来源
访客来自哪里?是赞助搜索(他们点击了我们在搜索引擎上投放的广告)、自然搜索(他们点击了搜索结果中指向我们网站的非付费链接)、社交媒体/邮件(他们点击了我们在群发邮件或推文中放置的链接)、引荐流量(他们来自第三方网站,例如美食评论家撰写了关于我们的博客文章并附上了链接),还是直接访问(他们自己输入了我们的网址)。
设备与地理位置
我们还可以了解访客使用何种设备。他们使用的是移动设备(iOS 还是 Android)还是电脑(Mac 还是 Windows)?使用什么浏览器?我们也能确定他们所在的地理位置。IP地址通常能提供详细的地理信息,在美国可以精确到邮政编码级别。
访客行为
他们是新访客还是回访客?如果是回访客,是否已注册为我们的客户?他们到达我们网站后做了什么?是否跳出(即从着陆页立即离开)?他们的访问总时长是多少?浏览了我们网站的多少个页面?更高级的工具可以追踪他们在网站上的每一条确切路径,即所谓的点击流。
那么,进行此类分析我们可能会发现什么呢?以下是一个例子:
通过自然搜索链接点击进入的访客,其跳出率(例如25%)远低于通过赞助链接找到我们的访客(45%)。在这种情况下,将资源投入到提升我们在自然搜索结果中的排名是合理的,这个过程被称为搜索引擎优化。
我们可以采取的一些基本SEO步骤包括:确保网站内容及时更新、充实且直接相关;避免在着陆页上使用不相关的话题或词汇稀释效果;努力让那些在实质性观点方面具有权威声誉的第三方网站(如高质量的新闻、产品评测网站和博客)提及我们并提供链接;通过增加Facebook主页点赞、转发,以及建立一个充实的Google+页面并增加其点赞数来提升我们的社交信号。在Twitter上拥有大量粉丝,尤其是获得有影响力人士的转发,也有助于提升Google排名。所有这些都能改善自然搜索排名。
让我们设想一下,如果网站指标告诉我们,我们大量最佳的复购客户来自挪威。仔细想想,这很合理。挪威是一个相当富裕的国家,那里的人口有能力购买奢侈品;同时它也是一个非常乡村化的国家,人们往往居住在远离城镇的地方,因此可能无法在当地找到披萨店。
当我们意识到这一点时,我们可能会决定应该针对挪威语关键词进行优化。例如,“Soona frisco looks as ffi ne Gerder”或“So or Noya oldp”。你明白这个意思了。


在本节课中,我们一起学习了网络营销中的客户细分策略。我们了解到,通过分析访客来源、设备、地理位置和行为等指标,可以将客户划分为不同群体,并识别高价值客户的共同特征。基于这些洞察,我们可以优化营销资源,例如投资搜索引擎优化以提升自然流量,或针对特定高价值地区进行精准营销,从而更有效地吸引和留住最佳客户。
032:资金管理与投资

在本节课中,我们将学习金融服务领域的关键指标,特别是资金管理与投资回报的计算方法。我们将探讨如何计算不同类型的投资回报,理解回报的波动性(风险),并介绍风险与无风险利率的概念。
资金经理与投资回报
资金经理是专业的投资者,他们的职责是管理他人的资金以获取回报。资金管理行业有自己专门的指标来衡量投资回报,尤其是经理的业绩表现。接下来,我们将讨论回报及其波动性。
资产回报的计算方法


资产回报主要有三种计算方式。对于一次性投资并在未来获得回报的情况,可以计算绝对回报率和年化回报率。这些回报率既可以计算为连续复利回报率,也可以计算为离散回报率。
虽然连续复利和离散回报率都是可接受的指标,但两种方法得出的结果不同。为了进行有意义的、公平的比较,在比较两个或多个回报率时,应始终使用同一种方法。
连续复利回报率
第一种方法是计算连续复利回报率。它涉及计算最终价格除以初始价格比值的自然对数(以e为底,通常写作 LN)。这将给出绝对回报值。
公式:
绝对回报 = LN(最终价格 / 初始价格)
示例:
假设初始投资为 $100,最终价值为 $130。计算过程如下:
LN(130 / 100) = LN(1.3) ≈ 0.2624,即 26.24% 的两年期绝对回报。
要计算年化回报,只需将此值除以年数(2年):
年化回报 = 0.2624 / 2 = 0.1312,即 13.12% 每年。
离散回报率
第二种方法是离散回报率。它涉及计算最终价格除以初始价格的比值,然后减去1。
公式:
绝对回报 = (最终价格 / 初始价格) - 1

示例:
使用相同数据:
(130 / 100) - 1 = 0.3,即 30% 的两年期绝对回报。
注意,相同的 $130 回报,使用连续复利法得出 26.24%,而使用离散法得出 30%。
要计算离散年化回报率,我们需要计算最终价格与初始价格比值的几何平均数,然后减去1。
公式:
年化回报 = (最终价格 / 初始价格)^(1/年数) - 1

示例:
(130 / 100)^(1/2) - 1 = 1.1402 - 1 = 0.1402,即 14.02% 每年。
再次注意,我们得到了不同的值:几何平均(离散年化)回报率为 14.02%,而连续复利年化回报率为 13.12%。
内部收益率(IRR)
当投资不是一次性投入,而是在不同时间点分批投入现金时,用于评估整体回报的指标是内部收益率。IRR 是一个单一的、固定的离散年化回报率,如果将其应用于每一笔投入的现金,其未来值的总和将等于最终的总回报。
示例:
假设第0年投资 $100万,第1年追加投资 $100万,用于开发一处房产,该房产在第4年以 $500万 售出。我们可以将此问题设立为一个代数方程来求解 x(即IRR):
(1 + x)^4 + (1 + x)^3 = 5
大多数计算器都有IRR函数,可以解出 x ≈ 29.62%。换句话说:
1.2962^4 + 1.2962^3 ≈ 5
几何平均回报与标准差(波动性)
上一节我们介绍了IRR,本节我们来看看如何计算一系列年度回报的几何平均数,并衡量其波动性。
假设我们有四个年度回报率:+25%, -18%, +10%, -4%。我们想知道,如果在四年期初有 $1,四年期末将有多少美元。
以下是计算步骤:
- 将每个回报率转换为增长因子(1 + 回报率)。
- 将这些增长因子相乘,得到总增长倍数。
- 计算几何平均回报率。
计算过程:
- 第一年:
$1 * 1.25 = $1.25 - 第二年:
$1.25 * 0.82 = $1.025 - 第三年:
$1.025 * 1.10 ≈ $1.1275 - 第四年:
$1.1275 * 0.96 ≈ $1.0824
总绝对回报约为 8.24%。要计算年化几何平均回报率:
(1.0824)^(1/4) - 1 ≈ 0.02,即 2%。
因此,尽管这四年的回报率波动很大(从 +25% 到 -18%),但其几何平均回报率约为 2%。一个每年稳定回报 2% 的投资,在四年后会产生相同的结果。
然而,我们非常想知道回报的分散程度。金融学的一个基本假设是,在其他条件相同的情况下,如果两个投资机会具有相同的长期回报,我们会偏好回报波动范围更小、更一致的那个。
衡量回报是集中还是分散的指标称为标准差。在金融中,回报的标准差被称为回报的波动性,它是衡量风险的标准指标。因为波动性越大,意味着投资风险越高。
以下是计算我们四个回报率标准差的步骤:
- 计算算术平均值:
(25% - 18% + 10% - 4%) / 4 = 3.25% - 计算每个值与平均值的差:
25% - 3.25% = 21.75%-18% - 3.25% = -21.25%10% - 3.25% = 6.75%-4% - 3.25% = -7.25%
- 将每个差值平方:
0.2175^2 ≈ 0.0473(-0.2125)^2 ≈ 0.04520.0675^2 ≈ 0.00456(-0.0725)^2 ≈ 0.00526
- 计算这些平方值的平均值(方差):
(0.0473 + 0.0452 + 0.00456 + 0.00526) / 4 ≈ 0.0255 - 取平均值的平方根(标准差):
√0.0255 ≈ 0.16,即16%
公式(样本标准差):
σ = √[ Σ(每个回报 - 平均回报)² / (数据点数量) ]
如果所有结果都相同,则标准差(通常用希腊字母 σ 表示)等于 0。对于我们这个更分散的数据集,标准差为 16%。
无风险利率

具有固定支付且实际上没有损失机会的投资(如某些债券)被称为无风险投资,其回报波动性为零。
财力雄厚的国家政府以其本国货币借款时支付的年利率,被称为无风险回报率。通常,使用美国政府三个月期国库券利率作为基准。该利率目前约为 0.08%,远低于其长期历史平均值 4.55%。
无风险利率是无风险借贷的利率,但大型公司和金融机构也能以非常接近此利率的水平借款,因此在简化分析问题时经常使用它。
总结

本节课中,我们一起学习了资金管理与投资的核心指标。我们介绍了计算投资回报的两种主要方法:连续复利回报率和离散回报率,并强调了在比较时应使用统一方法。我们探讨了用于评估分期投资回报的内部收益率(IRR)。接着,我们学习了如何计算一系列回报的几何平均回报率,并深入了解了衡量风险的关键指标——标准差(即波动性)。最后,我们介绍了无风险投资和无风险利率的概念,这是金融分析中的一个重要基准。理解这些概念是进行商业和投资分析的基础。
033:不同收益率的等效性与夏普比率 📈

在本节课中,我们将学习一个重要的投资概念:不同收益率之间的等效性。我们将看到,基金经理声称的不同回报率,在衡量其投资技能时可能是等效的。关键在于,这些差异可能仅仅源于是否使用了杠杆,即通过借入资金进行投资。我们将通过夏普比率这一核心指标来量化这种等效性。
杠杆如何影响收益与风险

上一节我们介绍了投资回报的基本概念,本节中我们来看看杠杆如何改变投资的收益与风险表现。
假设一位基金经理运用其技能,找到了一只年化收益率为9%、预期收益波动率(风险)为15%的股票。我们通常用图表表示,X轴代表波动率,Y轴代表投资组合回报率。因此,这个投资点位于坐标(15%, 9%)附近。
现在,我们假设该经理管理着2000万美元的自有资金。通过投资,年末价值变为2180万美元。离散收益率计算如下:
收益率 = (2180 / 2000) - 1 = 9%
引入杠杆后的变化
接下来,我们假设这位经理决定以1%的利率借入1000万美元。
以下是引入杠杆后的资金变化步骤:
- 初始总投资:自有资金2000万 + 借款1000万 = 3000万美元。
- 年末总价值:以相同的9%收益率计算,3000万投资变为3270万美元。
- 偿还债务:需要归还1000万本金及1%的利息,共计1010万美元。
- 最终自有资金:3270万 - 1010万 = 2260万美元。
- 计算新收益率:
新收益率 = (2260 / 2000) - 1 = 13%
通过借入1000万美元,经理将自有资金的收益率从9%提升到了13%。然而,投资中没有免费的午餐。为此付出的代价是风险也同步增加。因为借款放大了收益波动,新的波动率变为22.5%。于是我们得到了第二个投资点:(22.5%, 13%)。
我们可以进一步假设经理借入2000万美元,即使用100%的杠杆。
以下是100%杠杆下的计算:
- 初始总投资:2000万(自有)+ 2000万(借款)= 4000万美元。
- 年末总价值:4000万 * 1.09 = 4360万美元。
- 偿还债务:需归还2000万本金及1%的利息,共计2020万美元。
- 最终自有资金:4360万 - 2020万 = 2340万美元。
- 计算新收益率:
新收益率 = (2340 / 2000) - 1 = 17%
此时,波动率进一步放大至30%。我们得到第三个点:(30%, 17%)。
理解夏普比率
如果我们把这三个点画在图上,会发现它们几乎落在一条直线上。这意味着,通过以1%的利率借款,经理理论上可以获得这条线上任意一点的回报,只要他愿意承担相应的风险。因此,基金经理可以通过增加杠杆来获得任何他想要的回报率,但回报的波动性(风险)也会以同样的速度增加。
这个核心思想被夏普比率所捕捉。夏普比率的计算公式为:
夏普比率 = (投资组合收益率 - 无风险利率) / 投资组合收益波动率
这是一个非常有趣的指标,它将收益指标除以风险指标,代表了每承担一单位风险所能获得的超额收益单位数。

计算与验证等效性
现在,我们来计算上述三个投资点的夏普比率,以验证它们的等效性。假设无风险利率为1%。

以下是各情景的夏普比率计算:
- 情景一(无杠杆):收益率9%,波动率15%。
夏普比率 = (9% - 1%) / 15% = 0.533 - 情景二(借入1000万):收益率13%,波动率22.5%。
夏普比率 = (13% - 1%) / 22.5% = 0.533 - 情景三(借入2000万):收益率17%,波动率30%。
夏普比率 = (17% - 1%) / 30% = 0.533
逻辑上这完全合理,因为我们计算的是那条直线的斜率。所有落在这条具有恒定斜率的直线上的点,其夏普比率都相同。因此,这条线上的任何一点都反映了基金经理相同的选股技能水平。
核心结论与应用
获得9%回报的投资与获得17%回报的投资,在衡量基金经理技能方面是完全等效的,这种等效性由夏普比率捕捉。
这解释了为什么在比较基金经理业绩时,不能只看回报率而忽略其波动性。否则,一个经理总可以通过承担更大的风险(波动性)来人为提高回报率。

如果我要雇佣这位经理,我会告诉他:请专注于你的选股技能。如果我想要同时提高我的回报和风险,我会自己决定借钱来投资你的基金,从而决定我想处于这条“收益-风险连续线”上的哪个位置。你的任务,就是追求尽可能高的夏普比率。

总结

本节课中我们一起学习了不同收益率之间的等效性原理以及夏普比率的核心作用。我们了解到,单纯比较投资回报率可能产生误导,因为高回报可能源于高杠杆带来的高风险。夏普比率通过将超额收益与所承担的风险相除,提供了一个衡量投资技能效率的统一标准。它告诉我们,落在同一条风险-收益直线上的所有投资组合,其经理的底层技能是相同的。因此,在评估投资表现时,必须同时考虑收益和风险,而夏普比率正是这样一个强大的综合度量工具。
034:四类资金管理者及其绩效指标 📊

在本节课中,我们将学习四种不同类型的资金管理者,并了解如何评估他们的绩效。我们将从最基础的指数基金管理者开始,逐步深入到更复杂的对冲基金管理者,并介绍用于衡量他们表现的关键指标。
概述
资金管理者负责投资他人的资金,但并非所有管理者都以相同的方式运作。不同的投资策略和目标需要使用不同的绩效指标来衡量。本节将资金管理者分为四个基本类别:指数基金管理者、共同基金管理者、风险投资与私募股权投资者以及对冲基金管理者。我们将逐一探讨他们的角色和评估标准。
指数基金管理者 📈
上一节我们介绍了资金管理者的分类,本节中我们首先来看看指数基金管理者。
指数基金管理者管理的是一种被动投资。他们的目标不是挑选个股,而是尽可能紧密地追踪一个特定市场指数的表现,例如标准普尔500指数(S&P 500)。
市场资本总额(简称“市值”)是一个核心概念,其计算公式为:
公司市值 = 每股股价 × 流通股总数
例如,一家公司股价为52美元,流通股为500万股,其市值即为 52 × 5,000,000 = 260,000,000 美元。
标准普尔500指数是一个市值加权指数,而非简单的股价平均。这意味着像苹果这样市值巨大的公司,其股价变动对指数的影响,远大于一家小公司。其权重计算公式为:
公司权重 = 公司市值 / 指数总市值
指数基金管理者通过购买指数中所有成分股来复制指数。他们的工作挑战在于精确维持与指数相同的股票比例,同时最小化交易成本。
评估指数基金管理者的绩效主要看两个因素:
- 跟踪误差:基金表现与目标指数表现的接近程度。
- 费用比率:基金运营成本占基金总资产净值的比例。公式为:
费用比率 = 基金运营费用 / 基金总资产净值
例如,SPY(追踪标普500的ETF)的费用比率仅为0.0945%,但这笔费用每年仍超过1.27亿美元。更低的费用比率是评价被动型管理者的关键。
共同基金管理者 🏦
接下来,我们转向主动型管理者——共同基金管理者。与指数基金不同,他们试图通过研究来挑选能够跑赢大盘的股票。
在所谓的有效市场(如美国公开交易的证券市场)中,长期跑赢大盘非常困难。数据显示,超过80%的专业主动型管理者长期表现甚至不如简单的标普500指数基金。
共同基金管理者通常有自己专注的“投资领域”,例如特定市值规模的公司、特定行业或特定国家。评估他们时,会以其投资领域内所有股票的平均回报(即“基准指数”)作为参照。
以下是评估共同基金管理者的三个主要指标:
-
超额收益:管理者投资组合的回报率减去基准指数的回报率。
超额收益 = 投资组合回报率 - 基准指数回报率 -
跟踪误差:这里指超额收益的标准差。它衡量了投资组合回报偏离基准指数回报的程度。较大的跟踪误差通常被视为风险较高。
跟踪误差 = σ(超额收益) -
信息比率:将超额收益与所承担的风险(跟踪误差)结合起来考量的指标。它衡量了每承担一单位主动风险所获得的超额收益。
信息比率 = 超额收益 / 跟踪误差
信息比率越高,说明管理者在承担相同偏离风险的情况下,获得了更高的超额收益。

夏普比率与主动管理评估 ⚖️
除了上述指标,另一种评估主动型股票管理者的有效方法是使用夏普比率,并将其与基准指数的夏普比率进行比较。
夏普比率衡量的是每承担一单位总风险(以波动率衡量)所获得的超额回报(超过无风险利率的部分)。公式为:
夏普比率 = (投资组合回报率 - 无风险利率) / 投资组合波动率
核心观点:一个主动型管理者要想真正跑赢被动指数基金,他/她的投资组合必须拥有比基准指数更高的夏普比率。
举例说明:
- 假设标普500指数年化回报为12%,波动率为14%,无风险利率为2%。则其夏普比率为
(12% - 2%) / 14% ≈ 0.714。 - 一位主动管理者年化回报为17%,波动率为25%。其夏普比率为
(17% - 2%) / 25% = 0.6。

虽然管理者的绝对回报(17%)高于指数(12%),但其夏普比率(0.6)低于指数(0.714)。这意味着投资者其实可以通过投资指数基金并加杠杆的方式,以更低的风险获得与管理相同的回报。因此,仅看绝对收益是不够的,经风险调整后的收益(夏普比率)才是关键。

风险投资、私募股权与对冲基金管理者 🚀
最后,我们简要了解另外两类管理者。
- 风险投资与私募股权投资者:他们投资于非上市公司。由于其投资标的流动性差、估值困难,评估其绩效更为复杂。常用指标包括内部收益率(IRR)和投入资本分红率(DPI)等,这些指标关注的是长期资本增值和现金回报。
- 对冲基金管理者:他们采用最广泛的策略,可以使用卖空、杠杆、衍生品等工具,投资范围也涵盖股票、债券、大宗商品等多种资产。其目标是无论市场涨跌都能获得绝对正回报。评估他们需要使用更复杂的阿尔法(α)、贝塔(β)以及各种风险调整后收益指标。
总结

本节课中我们一起学习了四类主要的资金管理者及其绩效评估指标。
- 指数基金管理者通过紧密追踪指数进行被动投资,评估重点是费用比率和跟踪误差。
- 共同基金管理者进行主动选股,使用超额收益、跟踪误差和信息比率来评估其相对于基准的表现。
- 评估主动管理者时,夏普比率是一个重要工具,管理者必须拥有高于基准的夏普比率才算真正创造了价值。
- 风险投资/私募股权和对冲基金管理者使用更专门的策略和评估指标。


理解这些分类和指标,是分析和选择投资产品、评估资金管理能力的基础。
035:风险投资与私募股权基金评估 🏦

在本节课中,我们将学习风险投资与私募股权基金与共同基金、对冲基金的关键区别,并重点介绍评估这些另类投资基金绩效的核心指标。
基金结构与资金承诺 💰
上一节我们介绍了共同基金和对冲基金的基本特点,本节中我们来看看风险投资与私募股权基金在运作方式上的独特之处。
风险投资和私募股权基金在多个重要方面与共同基金和对冲基金不同。首先,基金经理不会在基金成立时一次性从投资者那里收取所有现金。相反,投资者会做出承诺,在一个典型基金为期五到七年的生命周期内,提供一定数额的现金。这些资金以“缴款通知”的方式分批次到位,通常在接到通知后30天内缴付。
以下是一个具体的例子:
- 一个大型机构投资者可能向一个风险投资基金承诺2000万美元。
- 他预期在四到五年内,会收到八次各250万美元的缴款通知。
采用这种结构的原因是,风险投资和私募股权投资需要很长时间来寻找项目、进行培育和构建交易。并且,通常会在多年内(最多可达五年)对同一家公司进行多轮投资。在投资者实际需要资金之前,外部资本来源不希望资金闲置,他们更愿意将其投资于其他地方,例如可以快速变现的流动性资产。


核心绩效指标:内部收益率 📈
由于投资者是在数年内分批向基金提供现金,评估这类基金绩效的最佳指标是内部收益率。它是基金实际动用资金所产生的离散、复合回报率。
对冲基金的评估要点 ⚖️
现在,让我们将目光转向对冲基金。与共同基金相比,对冲基金在投资类型上受到的限制要少得多。例如,对冲基金被允许进行做空操作,这意味着构建一种在股价下跌时也能赚钱的交易。它们还可以投资于许多不同类型的资产,包括期权和衍生品。
对冲基金并不局限于单一行业领域,因此使用行业基准来评估它们是没有意义的。事实上,为了实现最大程度的分散化,对冲基金的投资者通常希望其表现与所有主要股票市场的相关性都很低。一个优秀的对冲基金应该在牛市上涨,在熊市中也能为股票投资带来同样可观的收益。

当然,过往业绩记录(多年强劲的年化回报率)是一个关键指标,夏普比率也是如此。并且,由于对冲基金的持仓和运作比共同基金更不透明,对冲基金投资者对大幅回撤非常警惕。因此,对冲基金的另一个关键指标是从高水位线起的最大回撤。
理解最大回撤与盈亏平衡年数 📉
所以,如果一个对冲基金从2005年到2015年实现了年化15%的回报率,这看起来可能令人印象深刻。但如果期间出现过30%的回撤,比如在2007-2009年的大熊市期间,投资者会想:“我可能就是那个在最糟糕时刻入场的倒霉蛋,那样我就会损失30%的资金。”因此,对冲基金的现实是,如果它们开始出现20%-25%,特别是30%范围的亏损,人们会立即赎回资金,对冲基金通常就会崩溃。

与“从高水位线起的最大回撤”相关的另一个指标是盈亏平衡年数。理解这个概念的方法是:识别出在某段时间间隔内,从高点下跌到低点的最严重损失。
这里我们以标普500指数为例,观察区间为2007年8月10日至2015年5月20日。期间最严重的损失发生在2007年10月9日至2009年3月9日,市场下跌了57%。不用说,没有对冲基金能在承受这种损失后幸存。
然后,我们计算从起点到终点的年化回报率,即观察这条线的斜率,假设这个回报率是5%。接着,我们取最大回撤的绝对值除以年化回报率,得到的结果就是所谓的“盈亏平衡年数”。它表示在平均回报率下,投资者从最严重的损失中恢复过来所需的年数。这当然假设了他们在最糟糕的时刻进入了基金,但总会有人在这个时点进入,而你不希望那个人是你。
有趣的是,对于标普500指数,盈亏平衡年数超过了11年。而对冲基金需要将盈亏平衡年数控制在最多两到三年的范围内,才能持续吸引新的投资。
理想表现:稳定的复利增长 📊
最后,为了最小化与股票市场的相关性,投资者希望看到基金财富对数值呈现强劲的线性趋势。如果一个基金每天都能产生稳定、持续复利的回报,其回报率的波动性将为零,其时间与财富对数值的内部线性相关性将为1。

本节课中我们一起学习了风险投资、私募股权基金独特的资金承诺结构及其核心评估指标——内部收益率。同时,我们深入探讨了对冲基金的评估要点,包括其灵活性、关键绩效指标(如夏普比率),以及投资者极为关注的最大回撤和盈亏平衡年数概念。理解这些差异和指标,对于分析和选择另类投资基金至关重要。
036:关于本专项课程 🚀

在本节课中,我们将了解商业数据分析这一激动人心的领域,并介绍本专项课程的目标与内容。
欢迎来到商业数据分析这个极其令人兴奋的领域。我在此行业工作了20年,从未感到厌倦。你也不会感到厌倦。随着单一全球大数据分析文化的真正潜力得以实现,未来20年将更加激动人心。
我是一名研究大脑中大数据的神经科学家。我现在处理各种数据集,并将我们在大脑研究中发现的统计技术和问题解决技术应用于商业领域。这对我来说非常有趣,因为事实证明,由于大数据生态系统的存在,我们在科学领域面临的许多分析挑战,现在也正是商业领域所面临的挑战。
我们在科学领域发表论文所使用的技能,与向高管展示成果所使用的技能是相同的。这一切都关乎批判性思维、数据整理和沟通。
我曾作为一名发明家和企业家,创造了新的数据分析技术。我也曾作为风险投资家,帮助他人在商业分析领域实现梦想。在过去的六年里,我一直在杜克大学全球知名的工程管理硕士项目中担任教师。
我们的重点是实践性:如何帮助你利用数据创造积极的变化。商业世界中的“大数据”只是一个简称,它指的是我们过去所有需要记录的东西,比如产品发票、医生处方,现在都电子化并存储在计算机中。这意味着它们可以被搜索、探索、分析,甚至可能被利用。
电子数据的存储成本已经变得非常低,以至于丢弃数据并不能节省任何资金。这些数据中的大部分最终可能并无用处,但聪明的人们将在未来20年里,不断寻找新的方法来利用其中的一部分,创造具有经济价值的产品和服务,或者为他们已经销售的产品和服务,提取暂时的或持久的信息优势,即一个有意义的竞争优势。
任何处于竞争市场中的商业性盈利公司,如果不将商业数据分析的最佳实践融入其运营中,在未来五年内都无法保持盈利,甚至无法生存。
要高效利用所有这些大数据,需要理解数据问题的完整生命周期。这个生命周期包括数据收集、数据清洗、数据分析,以及向人们传达数据的含义。世界不仅需要能够驾驭整个周期的人,还需要能够整合并翻译所有参与人员语言的人,这些人包括从程序员到统计学家,再到沟通专家和商业领域专家。
信不信由你,这类人曾被大众媒体称为“独角兽”。这是因为很难想象一个人能掌握所有这些技能。然而,我们要告诉你,所有这些技能都可以被一个人掌握。本专项课程旨在帮助你迈出第一步,成为你自己的大数据“独角兽”。
当你完成最终的毕业项目时,你将掌握基本的商业概念和问题解决技能,以帮助你在大数据生态系统中游刃有余。同时,你也会掌握商业分析最重要的工具,包括在Excel中进行数据建模、使用Tableau理解和沟通数据,以及使用SQL组装数据。
你们中的一些人可能已经了解部分内容,但我们感兴趣的是弥合差距,帮助你们都成为“翻译者”。我们希望帮助没有技术背景的商业人士熟悉数据,也希望帮助有技术背景的人士学会提出最佳类型的商业问题。我们都相信,无论你的技术背景如何,大数据分析都是你能从事的最有回报的领域之一。最激动人心的发展还在未来。
感谢你与我们一同踏上这段旅程。

在本节课中,我们一起学习了商业数据分析领域的广阔前景和核心价值,明确了本专项课程的目标是培养能够驾驭数据全生命周期、连接技术与商业的“翻译者”或“独角兽”型人才。我们了解到,掌握从Excel、Tableau到SQL等工具,并具备批判性思维和沟通能力,是在大数据时代取得成功的关键。
037:精通 Excel 数据分析导论 📊

在本节课中,我们将要学习数据分析的核心目的、其在商业决策中的重要性,以及如何通过严谨的方法来量化不确定性,从而做出更明智的决策。
数据分析的目的是减少不确定性,以便人类能够做出更明智的决策。
在商业领域,明智的决策基于对恰当商业指标的分析。这些决策旨在增加收入、最大化盈利能力或降低风险。
当必须就某一特定行动做出商业决策时,如果可以选择在更高不确定性或更低不确定性的情况下做决定,每个理性的人都会选择在商业中面对更少的不确定性。至少,我们都是厌恶不确定性的。
当然,在商业和生活中,几乎所有重要的决策都必须在部分不确定的条件下做出。这没关系,这是领导力的本质。尽管我们都希望确定无疑,但接受部分无知、承认我们不知道的还有很多,这是一种现实主义,能带来更好的决策。
事实上,对不确定性的现实主义认知对于避免过度风险至关重要。高估不确定性可能导致拖延和瘫痪,这本身就有风险。而低估不确定性则更加危险,这是一种会导致灾难的傲慢。
在我作为企业家、CEO、风险投资者以及信息技术初创公司董事会成员的头20年里,这些公司基于对海量数据集的分析提供商业产品和服务,我逐渐认识到,大多数数据分析工作都是在没有充分问责制的情况下进行的。
所谓缺乏问责制,是指外部人员无法确定数据分析团队给出的答案真正减少了多少不确定性。团队本身可能也不知道。因为数据分析过程不透明。每个人都是局外人,包括接收数据分析团队报告并必须据此做出决策并承担后果的领导者。
不确定性的减少是否足以现在就做出决定?还是我们应该等待并收集更多数据?这个答案是否捕捉到了最大可能的不确定性减少,还是仅仅是数据分析团队碰巧首先尝试的某个模型所提供的结果?以及,到底还剩下多少不确定性?
我逐渐相信,任何设计良好的数据分析项目都应该至少测量两次不确定性。第一次是在当前知识状态下,在任何新数据被观察和分析之前。第二次是在技术团队利用现有数据和最佳方法提取了尽可能多的信息之后。
这两个不确定性水平之间的差异,就是新数据加上数据分析师的工作所提供的不确定性减少或信息增益。这是决策的信号。它应该与对剩余不确定性的现实评估一起呈现,即决策者必须接受并据此采取行动的残余误差或噪声。
量化不确定性的方法在信息论中有明确定义,并通过被称为贝叶斯逻辑数据分析的领域被严格应用于推理问题。贝叶斯逻辑数据分析方法主要由物理学家发展,建立在克劳德·香农于1948年发表的信息基本定义之上。其核心思想可以追溯到E. T. 杰恩斯在20世纪50年代的开创性工作,该主题的近期著作包括菲尔·格雷戈里、大卫·麦凯和达维德·西维亚等人的优秀教科书。
贝叶斯逻辑数据分析的思想为机器学习和人工智能领域的先进工作提供了信息。像Airbnb、亚马逊和谷歌这样最成熟的公司,正在将这些方法作为机器学习进行实际应用。它们的信息优势是其相对于信息不那么灵通的竞争对手取得惊人成功的部分原因。
然而,信息论的思想对大多数企业来说仍然是全新的,而且这些思想往往在学生教育的后期才被介绍,导致其在大学研究生工程或计算机科学课程中的根本重要性未被充分认识,甚至可能完全没有被教授。
我相信,这些思想可以并且应该在基础层面进行教授,即在介绍最基本的分析方法(如二元分类和线性回归)时。因此,本课程有一个鲜明的观点。它围绕在数据科学的商业应用中提供问责制的方法来组织,通过提供严谨、一致的方法来量化不确定性。
据我所知,本课程是独特的,因为它将贝叶斯逻辑数据分析的视角带入了数据分析的最初步骤,而学习者在此之前无需了解任何编程语言或高级统计学。课程使用简单、生动的例子,仅需代数知识,并提供可以通过标准Microsoft Excel函数有效解决的现实商业问题。
我希望这门课程能帮助你深入理解信息的本质,这将在你漫长而成功的职业生涯中具有实际的用处。

在本节课中,我们一起学习了数据分析的根本目标是减少决策中的不确定性。我们探讨了在商业中量化不确定性的重要性,并介绍了通过贝叶斯逻辑数据分析方法实现严谨问责制的核心理念。这些基础将帮助我们后续使用Excel等工具进行更有效、更可靠的分析。
038:本课程 Excel 使用介绍 📊

在本节课中,我们将学习如何有效地使用本课程提供的 Excel 模板和资源,以确保您能跟上后续更高级的内容。无论您是 Excel 新手还是有一定基础的用户,本节都将为您提供清晰的学习路径和工具使用指南。
第一周的视频专门针对没有 Excel 使用经验的学习者。
如果您属于这种情况,本周您将掌握所有基本的 Excel 技能和术语,这些是成功学习后续更高级材料所必需的。
我们推荐最高效的学习方法是:在观看每个视频时,同时打开相应的 Excel 模板电子表格。
这个模板是尚未完全填满的版本。请跟随视频,在必要时暂停,以便您能在自己的模板中填写相应的 Excel 单元格。
您应该能够逐步得出与视频中展示的相同正确答案。如果有任何不清楚的地方,请返回并尝试使您的电子表格与示例匹配,然后再继续观看下一个视频。
这种方法是整个课程的推荐学习方法。视频中的每个核心概念都有一个对应的 Excel 电子表格,其中以实际方式实现了该概念。
如果可能,请在观看每个视频时同时打开相关的 Excel 电子表格,并尝试自己得出与我相同的结果,只需使用 Excel 模板并输入一些额外的数据或函数。
如果您阅读 Excel 函数,会发现它们完全实现了视频中的公式。
当然,您可能还需要在 Excel 中编写一些额外的函数、移动单元格、添加单元格等,以回答更复杂的测验问题。
如果您已经掌握了下面描述的所有基本 Excel 知识,可以跳过本周的部分或全部课程,直接进行测验。
除非您已经熟悉以下内容,否则最好不要跳过视频:定义单元格位置、在公式中使用相对引用和绝对引用、Excel 的自动填充功能、为数字、货币和百分比设置单元格格式、使用散点图绘制结果、Excel 中算术运算的正确语法和顺序、对单个数字的常用函数(例如使用指数、对数、π 和随机数的函数)、对数字组的函数(例如平均值、最大值)以及对有序数对的函数(例如相关性和斜率)、绘制线性回归图并显示最佳拟合线的描述性统计信息、Excel 数据排序功能以及使用规划求解插件设置和解决问题。
测验中的问题要求您在 Excel 中回答,以测试您的基本 Excel 能力。不推荐使用 Excel 以外的工具获得正确答案,因为在后续课程中,您需要能够阅读 Excel 函数,以便从补充每个视频的 Excel 电子表格示例和数据集中受益,这些资源旨在帮助您更容易理解更高级的课程材料。
当然,如果您现在通过了测验,但后来意识到想要复习某项 Excel 技能,您可以随时返回观看相应的视频。
本课程中所有问题和解决方案的演示均使用 Microsoft Excel for Mac 版本 14.5.4。请注意,许多细节(例如某些菜单和命令的位置)在不同版本的 Excel 中会有所不同。因此,您计算机上的界面可能与视频中的界面看起来有很大差异。然而,获取帮助很容易。检查您拥有的 Excel 版本号,并在线查找如何在您的版本中使用相同的功能。只要包含规划求解插件,本课程的所有问题都可以通过任何版本的 Excel 解决。
据我所知,这包括自 2007 年以来发布的所有 Excel 版本。
您将不需要数据分析工具包,该工具包在 Excel 2016 之前的任何 Mac 版本 Excel 中均无法使用。
完成本课程后,您将能够应用高级数据探索方法、模型和信息论概念以及其他评估模型有效性的方法。您将能够在分析可用数据之前量化情况的不确定性、分析后的不确定性以及通过数据加模型组合实现的不确定性减少或信息增益。我们的目标是使本课程中引入的所有新概念尽可能易于理解。
我们通过研究每种类型问题的示例来实现这一目标,包括 Excel 中的完整示例答案,而不是使用更所谓的“高级”工具,例如 R 或 Matlab。Excel 已经是世界上使用最广泛且最容易掌握的商业数据处理工具之一。完成本课程后,您将把许多不同的 Excel 模板应用到许多不同的实际问题中。我的学生反馈说,他们通常可以在现实世界的问题中稍作修改后重复使用这些模板。当然,如果您更喜欢使用 R、Matlab 或其他工具解决课程问题,您将无法利用我为您创建的 Excel 电子表格的优势。但这当然是允许的。请以最适合您的方式使用本课程。祝您好运。

本节课中,我们一起学习了如何利用课程提供的 Excel 模板进行有效学习,明确了针对不同基础学习者的学习路径,并了解了课程对 Excel 版本的要求及核心工具的使用。掌握这些方法将为您后续学习更复杂的商业分析技术奠定坚实的基础。
039:Excel 基础词汇与图表入门 📊

在本节课中,我们将学习 Excel 电子表格的基础知识,包括如何定位单元格、使用公式进行计算、理解相对引用与绝对引用的区别,以及如何创建动态图表。
单元格定位与基础操作
我们首先从 Excel 电子表格中定位单元格的方式开始。
你会注意到表格有行号和用字母表示的列标。
因此,要标识一个特定位置,你可以这样描述:例如,当前高亮显示的蓝色方块是 单元格 B7。它上方的是 单元格 B6,右侧的是 单元格 C6,依此类推。
解决一个简单问题:复利计算
现在,我们来解决一个简单的问题。假设有一个固定的年利率,我们的财富在 10 年内复利增长。我们想知道在给定特定利率的情况下,10 年后我们有多少财富。
让我们假设年利率为 7%。


以下是解决此问题的一种方法:
- 在初始现金余额
$1000所在的单元格(即 B7)中输入公式。请注意,我输入了一个等号来激活单元格,这是使公式生效的关键。 - 输入公式
=B6*1.07。这应该得到结果1070。

这样,我就创建了一个相对引用。这意味着,如果我选中刚刚输入公式的单元格,并向下拖动其右下角的填充柄,Excel 会自动调整我的相对引用。例如,在下一行,公式会自动变为 =B7*1.07,即引用正上方的单元格。

通过拖动填充柄,我可以快速填充整个表格,得到 10 年后的最终结果 $1967.15。
为了使这些数字显示为美元格式,我可以选中这些单元格,进入“设置单元格格式”选项,选择“货币”格式。
使用绝对引用实现通用计算
虽然上述方法是正确且有效的,但还有一种更具通用性的方法,即使用绝对引用。
使用相对引用时,如果我想要更改利率,我需要在至少一个单元格中输入新值,并重新填充所有公式。但如果我们已经设置了一个专门存放利率的单元格(例如 C2 单元格存放 7%),就可以使用绝对引用来简化操作。
以下是具体步骤:
- 在 B7 单元格中输入公式
=B6*(1+$C$2)。 - 美元符号
$是 Excel 中绝对引用的符号。$C$2表示无论公式被复制到哪里,都固定引用 C2 单元格。 - 向下填充公式后,公式中
$C$2的部分将保持不变。
这样做的好处是,我只需在 C2 单元格中更改利率,所有计算结果和图表都会自动更新,非常方便。
创建动态图表
Excel 的另一个强大功能是创建与数据联动的图表。
以下是创建图表的步骤:
- 选中包含年份和财富值的数据区域。
- 转到“插入”选项卡下的“图表”功能区。
- 选择“散点图”中的“带直线和数据标记的散点图”。

这样,我就得到了财富随时间增长的直观图像。当我更改 C2 单元格中的利率时,图表会自动更新,清晰地展示不同利率下的增长轨迹。

总结


本节课中,我们一起学习了 Excel 的基础操作。我们了解了如何通过行号和列标定位单元格,使用公式进行基本计算。我们重点区分了相对引用(如 B6)和绝对引用(如 $C$2)的用法及其适用场景,并掌握了通过填充柄快速复制公式的技巧。最后,我们学习了如何根据数据创建动态图表,使数据分析结果更加直观。掌握这些基础概念是进行高效商业分析的重要第一步。
040:Excel中的算术运算 📊

在本节课中,我们将要学习如何在 Excel 中进行算术运算。Excel 的运算规则与我们用纸笔计算非常相似,遵循相同的运算顺序。掌握这些基础是进行更复杂数据分析的第一步。
运算顺序规则
上一节我们介绍了 Excel 的基本界面,本节中我们来看看其核心的算术运算规则。Excel 遵循标准的数学运算顺序,即“PEMDAS”法则。

这个法则规定了计算的优先级顺序,具体如下:
- P - 括号
- E - 指数
- M - 乘法
- D - 除法
- A - 加法
- S - 减法
计算时,Excel 会严格按照这个顺序执行操作。
算术运算符

了解了运算顺序后,我们需要知道在 Excel 中代表这些运算的符号。以下是 Excel 中使用的算术运算符:
- 括号:
( )。与常规数学中的括号用法相同。 - 指数:
^。在标准键盘上,它是数字6键的上档字符。 - 乘法:
*。在标准键盘上,它是数字8键的上档字符。 - 除法:
/。位于问号键的下方。 - 加法:
+。位于等号键的上方。 - 减法:
-。位于数字0和等号键之间。
公式输入与括号的重要性
现在,我们通过一个例子来看看如何正确输入公式以及括号的关键作用。假设我们需要计算 (6 - 3) * (4 + 2) 的值,正确结果应为 3 * 6 = 18。
如果我们在单元格中直接输入公式 =6-3*4+2,Excel 会给出错误答案。因为根据 PEMDAS 规则,它会先计算 3*4,公式实际执行的是 6 - 12 + 2,结果为 -4。
为了得到正确结果,我们必须使用括号来明确指定运算顺序。正确的公式应写为:
=(6-3)*(4+2)
这样,Excel 会先分别计算括号内的 6-3 和 4+2,再将结果相乘,最终得到 18。
提示:有时你可能想显示公式本身而非计算结果。可以在公式前加一个单引号
‘,例如’=6-3*4+2。这样单元格会将其作为文本显示。要恢复计算,只需删除单引号即可。
总结

本节课中我们一起学习了 Excel 算术运算的基础知识。我们回顾了 PEMDAS 运算顺序规则,认识了 Excel 中对应的算术运算符(如 ^、*、/),并通过实例强调了使用括号 ( ) 来控制计算顺序的重要性。正确运用这些规则是确保公式计算准确无误的基石。
041:单个单元格函数应用 📊

在本节中,我们将学习 Excel 中单个单元格函数的核心应用。Excel 的强大之处远不止于算术运算,其内置的数百个函数能帮助我们处理各种复杂计算。我们将通过几个简单的例子来了解如何使用这些函数。
常用数学函数示例
上一节我们介绍了基本的算术运算,本节中我们来看看几个常用的数学函数如何在一个单元格内使用。
自然对数函数
如果我想计算某个数值的自然对数(以 e 为底),可以使用 Excel 的 LN 函数。例如,计算 1.5 的自然对数:
公式:=LN(1.5)
操作方法是:先输入等号 = 激活公式,然后输入函数名 LN,最后在括号内输入数值 1.5 即可。同样,我们也可以引用其他单元格进行计算:
公式:=LN(D2)
这将计算 D2 单元格中数值的自然对数。
指定底数的对数函数
如果你想计算以其他数为底的对数,例如以 2 为底 1.5 的对数,需要使用 LOG 函数并指定两个参数。
公式:=LOG(1.5, 2)
在这个公式中,第一个参数 1.5 是真数,第二个参数 2 是指定的底数。
使用常数 Pi
Excel 内置了圆周率 π 的常数。例如,计算 1 除以 π 的平方根:
公式:=1/(PI()^0.5)
这里的 PI() 就是 Excel 中表示 π 的函数,括号是函数语法的一部分。^0.5 表示计算平方根。
随机数生成函数
Excel 另一类非常实用的函数是随机数生成器,它可以生成适用于绝大多数场景的伪随机数。
生成 0 到 1 之间的随机数
要生成一个介于 0 和 1 之间的随机数,可以使用 RAND 函数。
公式:=RAND()
每次双击包含此公式的单元格,或者工作表重新计算时,都会得到一个新的随机数。以下是生成多个随机数的方法:
- 在多个单元格中输入
=RAND()。 - 每次刷新或编辑工作表时,这些单元格都会生成新的随机数。
如果需要让随机数在生成后固定不变,可以在 Excel 的选项设置中关闭自动重算功能。这样,随机数就不会在你点击其他单元格时改变了。
本节总结
本节课中我们一起学习了在 Excel 单个单元格内应用函数的基本方法。我们介绍了如何计算对数和利用常数 π,还学习了生成随机数的技巧。这些是 Excel 众多内置函数中的几个基础例子。

接下来,我们将探索 Excel 另一个强大的功能:对一组数字(即数组)进行操作。在 Excel 中,组织在一列或多列中的一组数字被称为数组,处理数组将极大地提升我们的数据分析效率。
042:数据集数值函数 📊

在本节课中,我们将学习 Excel 中处理数据集的核心数值函数。这些函数能让我们对整列或整行的数据进行批量计算,例如求平均值、标准差等描述性统计量,从而进行更深入的分析。
上一节我们介绍了基础的数据处理,本节中我们来看看如何运用函数对成组的数据进行分析。
使用函数分析数据列
Excel 的强大之处在于,它能对聚集在单列或单行中的大量数字应用函数。例如,我们可以计算一组数字的平均值、标准差、最小值、最大值以及其他许多关于该数据集的描述性统计量。
此外,我们还有函数可以对有序的数字对集合进行分析。这意味着我们可以处理一个由两行或两列组成的数组,将它们的值配对,并执行针对两个变量的函数。
实战分析:股票收益率计算
为了说明这一点,我使用了从雅虎财经下载的数据:标准普尔 500 指数(代表美国股市 500 家最大公司)和杜克能源公司(一家大型美国公司)的股价。我获取了每月初的收盘价数据,这里使用的是“调整后收盘价”,它包含了股息的再投资。我查看了 176 个月的价格数据,据此可以计算 175 个月的月度回报率。
我将计算连续复利月度回报率(或称对数回报率)。方法是取两个价格比值的自然对数,其中较新的价格作为分子。公式如下:
=LN(较新价格 / 较旧价格)
例如,计算八月相对于七月的回报率:=LN(八月价格 / 七月价格)。如果价格从 1930 降至 1925,则当月会有小幅损失(-0.29%)。
接下来,我们可以使用 Excel 的填充柄技巧:只需点击单元格右下角的小方块并向下拖动,公式就会自动填充所有 175 个回报率的计算。这不仅方便,而且因为我们使用了相对引用,公式在行和列方向上都会自动调整。
当我将这个公式向右拖动到杜克能源的价格列时,公式中的引用会自动右移一列,开始引用 C 列的数据。这样,我就得到了两个时间序列的月度回报率:一个是市场指数的,另一个是个股的。
比较股票与市场表现
我常常需要分析个股相对于其所属市场指数(即更大范围的市场)的表现。首先,我好奇在这段时间内,是指数表现更好还是股票表现更好。
为了计算一列(或一行)数值的平均值(Excel 称之为“数组”),我需要使用函数。操作步骤如下:
- 输入函数名称,例如
AVERAGE。 - 输入我感兴趣的第一个数值的单元格位置。
- 输入一个冒号
:。 - 输入我感兴趣的最后一个数值的单元格位置。
这样,我就选中了这两个单元格及其之间的所有单元格来计算平均值。例如:=AVERAGE(D4:D178)。
同样,由于使用了相对引用,我可以将这个公式向右拖动,轻松计算出杜克能源股票的平均回报率。结果显示,在此期间,杜克能源的平均表现明显优于标准普尔 500 指数。
月度回报率是单月的。如果我想知道年化的连续复利回报率,只需将月度平均值乘以 12。公式为:=月度平均回报率单元格 * 12。然后,我可以通过拖动公式来计算杜克能源的年化回报率。
评估风险:标准差
在查看财务回报数据时,我通常还关心个体回报的离散程度,标准差是我用来评估这种离散程度的常用指标。
Excel 内置了标准差函数。我使用 STDEV.P 函数(P 代表总体标准差)来计算。我将使用与平均值相同的范围:=STDEV.P(D4:D178)。这样我就得到了月度标准差。我可以将其格式化为百分比以便阅读。
同样,我可以将这个公式向右拖动,计算杜克能源股票的月度标准差。
如果我想将这个值年化,需要注意的是,标准差的年化不是乘以 12,而是乘以 12 的平方根。公式如下:
=月度标准差 * SQRT(12)
Excel 有内置的平方根函数 SQRT。按此方式计算并拖动公式,我就能得到杜克能源的年化标准差。由此可见,虽然杜克能源在此期间的回报率显著高于标准普尔 500 指数,但其波动性也大得多,即可能的结果范围更广。
查看极值:最小值与最大值
另一种查看可能结果范围的方法是观察每个数据集的最差月份和最佳月份。Excel 提供了 MIN 和 MAX 函数。
以下是计算最小值与最大值的步骤:
- 最差月份(最小值):使用
=MIN(D4:D178)。结果显示,在此期间最差的一个月损失了 18.5%。 - 最佳月份(最大值):使用
=MAX(D4:D178)。结果显示,最佳的一个月获得了 10.3% 的收益。
对于整个指数是如此。而杜克能源股票曾有一个月下跌了 31%(更糟),但也曾有一个月上涨了 20.9%(更好)。
总结与结论
本节课中我们一起学习了如何利用 Excel 的数值函数对数据集进行描述性统计分析。

从描述性统计的角度,我已经可以得出一些结论:在这超过 14 年的时间里,杜克能源股票似乎比单纯投资标准普尔 500 指数能带来更高的回报。但是,为此我需要承担更高的风险:其回报的标准差更大,低谷更低,高峰也更高。因此,从风险调整后收益的角度看,杜克能源股票的高回报并非“免费的午餐”,获得更高回报需要付出相应的代价(更高的波动性)。
043:有序数据对函数 📊

在本节课中,我们将学习如何使用 Excel 中专门为处理两列或两行数据而设计的函数。这些函数用于分析有序数据对,帮助我们理解两组数据之间的关系,例如股票回报与市场指数之间的关系。
上一节我们介绍了处理单列数据的函数,本节中我们来看看如何同时分析两组相关的数据。
理解有序数据对
我们假设 X 轴的值代表标准普尔 500 指数的月度回报率,Y 轴的值代表杜克能源公司股票在同月的回报率。这样,每一对数据(X, Y)就代表了一个月内两种不同的回报率。我们的目标是找到最能拟合这些数据点的直线。
如果两组数据完全相关,拟合线会非常陡峭。如果完全不相关,拟合线则会非常平缓。我们将计算这条拟合线的斜率。
计算斜率
我们使用 Excel 的 SLOPE 函数来计算最佳拟合线的斜率。该函数要求先输入已知的 Y 值。
以下是计算斜率的步骤:
- 输入函数
=SLOPE(。 - 首先选择 Y 值的数据范围,例如
E4:E178。 - 用逗号分隔,然后选择 X 值的数据范围,例如
D4:D178。 - 函数将返回一个数值,代表斜率。
公式如下:
=SLOPE(E4:E178, D4:D178)
计算出的斜率值是一个数字,而不是百分比格式。
计算截距
接下来,我们想知道杜克能源股票平均是否跑赢了标准普尔 500 指数。一种计算方法是求 Y 轴截距,即当标准普尔 500 指数回报率为 0%(持平)时,杜克能源股票的预期回报率。
我们使用 Excel 的 INTERCEPT 函数。
以下是计算截距的步骤:
- 输入函数
=INTERCEPT(。 - 同样先输入已知 Y 值范围,例如
E4:E178。 - 用逗号分隔后,输入已知 X 值范围,例如
D4:D178。
公式如下:
=INTERCEPT(E4:E178, D4:D178)
结果显示,在这 14 年间,当股市本身没有回报时,杜克能源股票平均回报率约为 0.5%。我们可以将此单元格格式设置为百分比以便阅读。
计算相关性
我们已经看到这两个变量的走势不同。一个常见的问题是:它们的运动方式有多大差异?它们是总是一起上涨下跌,还是存在独立的运动?为此,我们需要计算相关系数。
我们使用 CORREL 函数。输入数据的顺序不影响结果,因为 X 对 Y 和 Y 对 X 的相关性是相同的。
以下是计算相关性的步骤:
- 输入函数
=CORREL(。 - 选择第一组数据范围,例如
E4:E178。 - 用逗号分隔后,选择第二组数据范围,例如
D4:D178。
公式如下:
=CORREL(E4:E178, D4:D178)
计算出的相关性显著但并非极强,表明存在大量独立运动。这意味着杜克能源股票常常特立独行,在市场上涨时下跌,在市场下跌时上涨。对于表现良好的股票,这是一个理想特性,因为它有助于通过持有与市场指数不完全高度相关的资产来实现更好的投资组合多元化。

计算 R 平方值

R 平方值有两种计算方法:使用 Excel 的专用函数,或者直接对相关系数进行平方。
我们使用 RSQ 函数。
以下是计算 R 平方值的步骤:
- 输入函数
=RSQ(。 - 先输入已知 Y 值范围,例如
E4:E178。 - 用逗号分隔后,输入已知 X 值范围,例如
D4:D178。

公式如下:
=RSQ(E4:E178, D4:D178)


为了保持电子表格的清晰有序,建议将数字格式化为合理位数。通常小数点后两位已足够,因为更多位数往往没有实际意义。
通过图表可视化与验证

另一种分析与验证最佳拟合线统计量的方法是使用散点图。
以下是创建带趋势线和统计信息的散点图的步骤:
- 同时选中代表 X 轴和 Y 轴的两列数据。
- 点击“插入”选项卡,选择“图表”中的“散点图”,通常选择带数据标记的散点图。
- 生成的图表中,每个点代表一个月的活动,X 轴是标准普尔 500 回报率,Y 轴是杜克能源股票回报率。图表直观显示了数据间的关联程度。
- 点击图表,在“图表设计”或“图表工具”下找到“添加图表元素”,选择“趋势线” -> “线性趋势线”。
- 右键点击添加的趋势线,选择“设置趋势线格式”。
- 在趋势线选项中,勾选“显示公式”和“显示 R 平方值”。
图表上显示的公式 y = 0.4863x + 0.0051 表明:
- 斜率是 0.4863,与我们之前用
SLOPE函数计算的结果一致。 - Y 轴截距是 0.0051,与我们之前用
INTERCEPT函数计算的结果一致。 - R 平方值是 0.11,也与我们之前用
RSQ函数计算的结果一致。

本节课中我们一起学习了如何使用 Excel 的 SLOPE、INTERCEPT、CORREL 和 RSQ 函数来分析有序数据对,以量化两组数据之间的线性关系。我们还通过创建散点图并添加趋势线,直观地验证了这些统计结果。这些工具对于理解变量间的关联、进行预测和做出数据驱动的商业决策至关重要。
044:Excel 数据排序 📊

在本节课中,我们将学习如何使用 Excel 的数据排序功能,来直观地分析标准普尔 500 指数与杜克能源公司股票回报率之间的关系。通过排序,我们可以快速识别表现最佳和最差的月份,并观察两者之间的关联性。
分析目标与数据准备
上一节我们介绍了数据的基本结构,本节中我们来看看如何通过排序来探索数据间的关系。我们手头有两组数据:标准普尔 500 指数的月度回报率和杜克能源公司股票的月度回报率。我们的目标是,找出标准普尔 500 指数表现最好的月份,并观察在这些月份里,杜克能源公司的股票是否也表现良好,以此来直观感受两组回报率之间的关联程度。
对标准普尔 500 指数进行排序
首先,我们将对标准普尔 500 指数的回报率进行降序排序,以找出其表现最佳的月份。在 Excel 中,操作步骤如下:
- 选中标准普尔 500 指数回报率所在的列(例如 B 列)。
- 点击 数据 选项卡下的 排序 按钮。
- 在排序对话框中,选择 降序 排列。
在进行排序时,有一个关键点需要注意:我们不能只对单列数据进行排序,否则会破坏数据行中月份与对应回报率的配对关系。以下是正确的操作方式:
当 Excel 弹出“排序警告”对话框时,选择 扩展选定区域。这意味着,所有与所选列相邻(即中间没有空列)的列,都会根据 B 列的排序顺序一同移动。这样,每一行数据(包含月份、标普指数回报、杜克能源股票回报)就能作为一个整体保持配对。
排序完成后,我们立刻可以看到标准普尔 500 指数表现最好的月份。通过观察可以发现,这些月份与杜克能源股票的最佳表现月份关联性并不强。例如,在 2009 年 4 月,标普指数取得了整个 14 年期间最好的月度回报之一,但杜克能源的股票却是下跌的。而在 2003 年 4 月,标普指数表现良好,杜克能源股票则表现优异。
观察表现最差的月份
接下来,我们来看看表现最差的月份是否存在更强的关联性。我们将对标准普尔 500 指数进行升序排序。
操作步骤与之前类似,但在排序对话框中选择 升序 排列,并同样选择 扩展选定区域。
观察排序结果,我们发现了一些两者都下跌的月份。但同时,也存在标普指数表现非常糟糕,而杜克能源股票仅小幅下跌的月份。这表明,在下跌行情中,两者的关联性似乎比上涨行情中更强。换句话说,当标普指数大幅下跌时,杜克能源股票通常也会下跌;但当标普指数大幅上涨时,杜克能源股票不一定随之大涨。
对杜克能源股票进行排序
为了从另一个角度验证,我们不妨对杜克能源股票本身的回报率进行排序。首先进行降序排序,找出其表现最佳的月份。
以下是杜克能源股票回报率最高的几个月份示例:20%, 19%, 13%, 12%, 11%, 11%, 9%。观察发现,在这些月份中,只有大约一半的时间标普 500 指数是上涨的。这进一步证实了杜克能源股票的最佳表现期与标普 500 指数之间关联性很弱。
接着,我们对杜克能源股票进行升序排序,观察其表现最差的月份。
结果显示,在杜克能源股票大幅下跌的多数月份里,标普 500 指数也处于下跌状态,但跌幅通常远小于杜克能源股票。这或许说明,当市场整体(以标普指数衡量)只是小幅下跌,而杜克能源公司本身又有利空消息时,市场对杜克能源股票的反应会比对整个指数的反应剧烈得多,即波动性更大。
恢复数据原始顺序
完成分析后,我们可能需要将数据恢复到最初的按时间顺序排列的状态。这很简单,只需按日期列进行排序即可。
- 选中日期列。
- 点击 数据 -> 排序。
- 选择 升序 排列,并 扩展选定区域。
这样,最早的日期会排在最上方,数据就恢复到了我们最初电子表格中的有序形式。当然,你也可以选择按日期降序排列,这取决于你最初的数据视图。

本节课中我们一起学习了如何使用 Excel 的排序功能来探索两组金融数据之间的关联。通过分别对标准普尔 500 指数和杜克能源股票回报率进行升序和降序排序,我们直观地发现,两者在下跌时的关联性比上涨时更强,并且杜克能源股票的表现受其自身特定因素影响较大。最后,我们还学会了如何通过按日期排序来恢复数据的原始顺序。
045:Solver 插件入门 🧮

在本节课中,我们将要学习 Excel 中一个非常强大的工具——Solver 插件。Solver 可以帮助我们解决涉及函数优化和约束条件的问题,例如寻找特定输入值以达到目标输出。
什么是 Solver 插件? 🤔
Solver 插件是一个用于解决优化问题的工具。当你有一个函数或一系列函数,并且想知道输入什么值(x)能使函数输出(F(x))达到特定目标时,Solver 非常有用。
我们可以为输出目标(Y)选择三种不同的设定:
- 达到某个特定值。
- 寻找最大值。
- 寻找最小值。
此外,我们还可以为输入变量(x)设置约束条件,例如要求它们必须为正数,或在 0 到 1 之间等。
Solver 同样适用于多变量函数。
如何使用 Solver:单变量示例 💰
上一节我们介绍了 Solver 的基本概念,本节中我们来看看一个具体的应用示例。
假设我们有一个复利计算问题:已知年利率和最终目标金额($5,000),想要求解所需的初始本金。公式为:
最终值 = 初始本金 * (1 + 利率)^年数
以下是使用 Solver 解决此问题的步骤:
-
启用 Solver:在 Excel 的“数据”选项卡中,找到“分析”组。如果看不到“规划求解”(Solver)按钮,则需要通过“文件”->“选项”->“加载项”->“转到”来启用“规划求解加载项”。
-
设置问题:假设初始本金(B7单元格)为 $1000,年利率(C4单元格)未知,年数固定,最终值(B17单元格)目标为 $5000。
-
打开 Solver:点击“数据”选项卡下的“规划求解”。
-
配置参数:
- 设置目标:选择最终值所在的单元格(B17)。
- 目标值:选择“值为”,并输入
5000。 - 通过更改可变单元格:选择存放利率的单元格(C4)。
-
求解:点击“求解”按钮。Solver 会通过迭代计算,快速找到使最终值等于 $5000 所需的利率。完成后,可以选择“保留规划求解的解”或“还原初始值”进行其他计算。
挑战问题:求解所需年数 ⏳
刚才我们学习了如何求解利率。现在,我们面临一个更复杂的问题:如果利率固定为 7%,初始本金为 $1,000,需要多少年才能增长到 $5,000?
我们之前按年份逐行计算的方法不再适用,因为年数本身成了需要求解的变量。我们需要一个单独的公式,其中年数是一个可变的参数。
新的计算公式应放在一个单元格中(例如 E12),公式为:
=B7 * (1 + C4) ^ G8
其中,G8 是代表未知年数的单元格。
以下是解决此挑战的步骤:
-
构建公式:在单元格 E12 中输入上述公式,引用初始本金(B7)、利率(C4)和年数(G8)。
-
配置 Solver:
- 打开“规划求解”对话框。
- 设置目标:选择包含公式的单元格(E12)。
- 目标值:选择“值为”,并输入
5000。 - 通过更改可变单元格:选择代表年数的单元格(G8)。

- 求解:点击“求解”。Solver 将计算出,在 7% 的年利率下,需要大约 23.788 年 才能使 $1,000 变成 $5,000。

总结 📝

本节课中我们一起学习了 Excel 的 Solver 插件。我们了解了它的基本用途——在满足约束条件下,通过调整输入变量来达成函数输出的目标值、最大值或最小值。我们通过两个实例演示了其操作:先求解未知利率,再解决更具挑战性的求解所需年数问题。掌握 Solver 能帮助我们高效解决许多原本复杂的商业和数据分析问题。
046:二分类问题导论 🎯

在本节课中,我们将要学习二分类问题的基本概念,并重点介绍一种用于评估分类模型性能的强大工具——ROC曲线及其面积(AUC)。我们将通过一个历史案例来理解其重要性。

历史背景:伦敦大轰炸与雷达预警
从1940年9月7日到1941年5月11日,在被称为“伦敦大轰炸”的战役期间,德国轰炸机袭击了伦敦,造成超过43,000名平民死亡。
当时,雷达是一项正在开发的绝密技术。英国战斗机司令部部分依靠非常原始的雷达信号来拦截德国轰炸机。雷达屏幕上的一个模糊影像,可能是飞越英吉利海峡的轰炸机,也可能只是随机噪声,比如一群海鸥,甚至什么都没有。
基于早期雷达数据做出决策的人员,面临着一个典型的二分类问题。
二分类的代价与混淆矩阵

发出“阳性”指令(即派遣战斗机)会消耗宝贵的资源,耗尽飞行员体力,并燃烧当时因英国被封锁而无法补充的航空燃油。如果雷达上实际没有轰炸机(即假阳性),这个错误的代价显而易见。
另一方面,发出“阴性”指令(即按兵不动)也可能带来灾难性后果。如果雷达影像确实是一个德国轰炸机中队,那么假阴性的错误将让它们畅通无阻地轰炸伦敦。
为了评估这些原始雷达系统,一位非常杰出的人发明了一种巧妙的方法论,即受试者工作特征曲线,或称ROC曲线。
上一节我们介绍了二分类决策面临的严峻挑战,本节中我们来看看如何系统地描述和评估这些决策结果。
我们有两种实际状况(我们称之为“轰炸机”和“海鸥”),以及两种分类决策(“阳性”:派遣战斗机;“阴性”:不作为)。这为我们提供了一个2x2的网格,包含四种可能的“分类-状况”组合。
传统上,我们将实际状况标注在网格左侧(上方是“轰炸机”,下方是“海鸥”),将分类决策标注在网格上方(左侧是“阳性”,右侧是“阴性”)。
以下是这个网格的四个象限及其名称:
- 真阳性:实际是轰炸机,且被正确分类为阳性。
- 假阳性:实际是海鸥,但被错误分类为阳性。
- 假阴性:实际是轰炸机,但被错误分类为阴性。
- 真阴性:实际是海鸥,且被正确分类为阴性。
这整个包含八个值的排列被称为混淆矩阵。它在本课程以及你未来的数据科学工作中会反复出现,因此完全熟悉它非常有必要。

ROC曲线与AUC的计算原理
ROC曲线的计算方式是:为所有雷达影像分配一个数值分数(例如,对应屏幕上模糊影像的最大面积),并追踪其最终的真实状况(轰炸机或海鸥)。数据收集后,将(分数, 真实状况)这对数据按分数从高到低排序。
请注意:重要的是相对顺序,而非所使用的具体评分方法细节。

理论上,战斗机司令部可以设定一个分类阈值。如果他们将阈值设得比任何分数都高,那么每个影像都会被分类为阴性(不作为)。如果他们将阈值设得比任何分数都低,那么每个影像都会被分类为阳性(派遣战斗机)。
现实中,区分阳性和阴性分类的阈值总是设在两者之间的某个位置。具体设在哪里,取决于假阴性与假阳性之间的相对代价。我们将在本课程后续的视频和Excel练习中学习如何为自己设定这些阈值。
目前,只需理解:保持评分方法不变,但改变阈值,会导致混淆矩阵的值发生变化。
理解了阈值的作用后,我们来看看如何绘制ROC曲线。
ROC曲线的绘制方法是:针对一个给定的阈值,确定其假阳性率(即在该阈值下,假阳性数量占所有“海鸥”总数的百分比)和真阳性率(即在该阈值下,真阳性数量占所有“轰炸机”总数的百分比),然后在图上绘制一个点,其中X轴是假阳性率,Y轴是真阳性率。
只需将阈值从最高分之上(对应点(0, 0))移动到最低分之下(对应点(1, 1)),并找出中间每个阈值对应的(X, Y)坐标点,连接这些点就形成了ROC曲线。
对所有可能阈值下的ROC曲线下方面积求和,就得到了曲线下面积,即AUC。
总结与历史注记
本节课中我们一起学习了二分类问题的核心框架——混淆矩阵,以及评估分类模型区分能力的核心工具——ROC曲线与AUC。

最后一点注记:曲线下面积(AUC)指标帮助赢得了不列颠之战,并且至今仍是优化二分类系统最广泛使用的方法,但其发明者却默默无闻。当关于AUC曲线的参考文献在20世纪50年代初开始出现在非机密著作中时,已经没有人费心为他或她记上一功,而首次出现AUC的文件显然至今仍属机密。
047:混淆矩阵解析 🎯

在本节课中,我们将学习混淆矩阵的核心概念。混淆矩阵是评估二元分类模型性能的关键工具。我们将通过一个雷达识别轰炸机与海鸥的生动例子,来理解分类中的四种可能结果,并探讨阈值如何影响这些结果。
二元分类的四种结果
当面对二元结果和二元分类问题时,我们的预测可能以两种不同的方式正确,也可能以两种不同的方式错误。
如果我们试图识别的真实情况是“轰炸机”(即我们关注的正类),并且我们正确地将一个事件分类为正类,这被称为真阳性。
另一方面,如果我们正确地将一个情况识别为“无需担忧”(例如雷达上的海鸥或其他无意义的斑点),即我们将其分类为负类,并且它确实是负类,这被称为真阴性。

如果总能将事物分类为真阳性或真阴性,那么数据挖掘领域就无事可谈了。核心问题始终是:如何在最小化错误的同时,获得良好甚至优秀的结果。
当我们做出了正类分类,但实际情况却是负类时,这就产生了假阳性。
而当我们最严重的错误发生时,即实际情况是正类,但我们的分类却告诉我们它是负类,这就是假阴性。
轰炸机与海鸥的实例分析
在我们的轰炸机与海鸥场景中,假设有3架轰炸机和17只海鸥。雷达系统会根据图像大小为每个事件生成一个评分(例如最高97分,最低10分),并据此排序。
轰炸机的实际评分假设为93、83和75。它们并非整齐地排在前三位,这为我们评估系统性能创造了条件。
我们评估该雷达系统的性能,取决于我们决定将多少分以上的事件宣布为“阳性”(即轰炸机)。
不同阈值下的性能对比


以下是两种使用相同雷达系统和数据,但设置不同决策阈值的方法。

第一种情况:阈值设为80分
- 真阳性:评分高于80的轰炸机(93分和83分),共2个。
- 假阴性:评分低于80的轰炸机(75分),被漏报,共1个。
- 假阳性:评分高于80的海鸥(假设评分为97、90、86、80的海鸥),被误报为轰炸机,共4个。
- 真阴性:评分低于80的海鸥,共13个。


第二种情况:阈值设为70分
- 真阳性:评分高于70的轰炸机(93、83、75分),全部捕获,共3个。
- 假阴性:0个。
- 假阳性:评分高于70的海鸥(假设评分为97、90、86、80、77、74、70的海鸥),共7个。
- 真阴性:评分低于70的海鸥,共10个。
通过对比可以清晰地看到,阈值线的位置直接决定了我们会产生多少误报(假阳性)。阈值设得越高(如80分),误报越少,但可能漏掉真正的威胁(假阴性)。阈值设得越低(如70分),能捕获所有威胁,但代价是误报警报大幅增加。

核心概念总结

本节课中我们一起学习了混淆矩阵的构成。关键在于理解:
雷达系统本身并不直接决定混淆矩阵中每个格子的数量。 决定因素是我们的雷达评分系统(为不同图像生成相对大小的评分和排序)与我们设定的决策阈值这两者的结合。

整个二元分类系统的流程可以概括为:
- 模型生成评分。
- 根据评分进行排序。
- 应用一个阈值。
- 阈值以上的所有事件被宣布为阳性。
- 阈值以下的所有事件被宣布为阴性。


通过调整阈值,我们可以在捕获率(真阳性)和误报率(假阳性)之间进行权衡,这正是评估和优化分类模型的核心。
048:成本决定最优阈值 📊

在本节课中,我们将学习如何通过分析不同决策错误的成本,来确定分类模型的最佳阈值。理解这一点对于构建高效且经济的商业分析工具至关重要。


描述阈值的典型方法
上一节我们介绍了分类模型的基本概念,本节中我们来看看如何具体描述和评估一个阈值。
我们通常使用假正率和真正率来刻画一个特定的阈值。
- 假正率 的计算公式是:
假正例数量 / 负例总数量。 - 真正率 的计算公式是:
真正例数量 / 正例总数量。
阈值与坐标点
现在,让我们将阈值转化为可视化的坐标点。
我们当前看到的图中,阈值为 80。它的假正率是 4/17,真正率是 2/3。而我们另一个阈值为 70 的点,其假正率是 7/17,真正率是 1。

正如我们在动态演示中看到的,每一个有序数对(X = 假正率, Y = 真正率)都可以被绘制在XY坐标平面上。因此,每一个阈值都对应一个坐标点。

例如,阈值80对应的点是 (4/17, 2/3),即略小于0.25的X值和约0.667的Y值。阈值70对应的点是 (7/17, 1)。

曲线下面积的意义
以下是所有可能阈值对应的假正率和真正率的图形化表示。

图中曲线下的面积是一个重要指标。在我们这个例子中,该面积为 0.8。对于任何旨在区分两种状态(如诊断工具)的模型而言,这是一个相当合理且不错的数值。

引入成本函数
然而,模型的实际表现究竟会给我们带来多少成本?这取决于每次错误所导致的代价。
一个成本函数正是基于这些代价来构建的。

通常,不同类型的错误代价差异巨大:
- 假负例(例如,炸弹穿透防线)的代价通常非常高昂,可能造成巨大破坏。
- 假正例(例如,误派战机拦截)的代价虽然也高,但通常相对较低。这包括消耗燃料、占用资源,并承担战机部署错误位置的风险。


成本如何决定最优阈值
我们将在后续的测验和Excel表格练习中看到,阈值的设置位置,将由这两类错误的相对成本大小决定。

以下是成本影响阈值选择的核心逻辑:

- 在假负例成本(如炸弹穿透)远高于假正例成本(如派遣战机)的情况下,你希望尽可能减少假负例的数量。因此,你愿意接受一个更低的阈值,以提高灵敏度,尽管这可能会增加假正例。
- 反之,如果假正例的成本相对更高,你则会倾向于选择一个更高的阈值,以减少误报。

本节课中我们一起学习了如何通过假正率和真正率来评估阈值,并理解了错误成本是决定最优阈值的核心因素。关键在于根据实际业务场景中不同错误的代价,权衡并选择最经济的决策边界。
049:计算阳性与阴性预测值 📊
在本节课中,我们将学习二元分类的另一个实际应用案例:如何计算医学诊断测试的阳性预测值和阴性预测值。我们将通过一个癌症诊断测试的例子,理解这些指标的实际意义,并学会如何计算它们。
从癌症诊断案例引入
上一节我们讨论了二元分类的基本概念,本节中我们来看看一个具体的医学诊断案例。这是一个典型的二元分类问题,涉及一种罕见癌症的蛋白质血液检测。
该癌症在我们研究人群中的发病率为1%。这意味着,在人们走进医生办公室并接受检测之前,他们有1%的概率患有这种癌症,有99%的概率没有患病。
理解测试的准确率指标
这个测试通常被认为是一个相当好的测试。原因在于它的真阳性率和真阴性率。
- 真阳性率的计算公式为:
真阳性 / 实际患病者,本例中为95%。 - 真阴性率的计算公式为:
真阴性 / 实际未患病者,本例中为80%。
如果你走进医生办公室并得到一个阳性检测结果,你可能会感到恐慌,特别是如果你被告知该测试的真阳性率高达95%。然而,真阳性率的含义并非如此。
定义条件概率
现在,我们首次将这些术语与条件概率的概念联系起来分析。
让我们将这些术语定义为条件概率:
- 真阳性率 是 在患有癌症的条件下,检测呈阳性的概率。
- 真阴性率 是 在未患癌症的条件下,检测呈阴性的概率。
但这并不是我们真正想知道的信息。我们真正想知道的是稍微不同的内容:
- 在检测呈阳性的条件下,我们实际患病的概率是多少?
- 在检测呈阴性的条件下,我们实际未患病的概率是多少?
这两个条件概率有专门的名称,因为它们在实际应用中非常重要。
计算阳性预测值与阴性预测值
第一个概率被称为测试的阳性预测值。第二个概率被称为阴性预测值。

我们通过回顾下面的诊断结果分布图来计算这些值。

以下是计算步骤:
计算阳性预测值
我们取所有阳性检测结果中的真阳性部分(即图中的0.0095),然后除以阳性检测结果的总数(0.2075)。

计算公式为:
阳性预测值 = 真阳性数 / 总阳性数 = 0.0095 / 0.2075 ≈ 4.58%
因此,如果我收到一个阳性检测结果,这只告诉我我有4.58%的概率患有癌症。这意味着,我仍然有超过95%的概率没有患癌。

计算阴性预测值
阴性预测值的计算基于真阴性数除以阴性检测结果的总数。

计算公式为:
阴性预测值 = 真阴性数 / 总阴性数 = 0.792 / 0.7925 ≈ 99.937%




结果解读与意义

在我走进办公室时,我患有癌症的先验概率是1%。现在,在得到阴性检测结果后,我患癌的后验概率降低到大约0.063%,远低于千分之一。


本节课中我们一起学习了如何计算和解读诊断测试的阳性预测值与阴性预测值。我们通过一个癌症诊断的实例,明确了真阳性率与阳性预测值的根本区别:前者反映的是测试识别病人的能力,而后者回答的是“检测呈阳性时,实际患病的概率有多大”这个对患者至关重要的问题。理解这一点对于正确评估测试结果和做出明智决策至关重要。
050:ROC曲线下面积计算方法 📊

在本节课中,我们将要学习接收者操作特征曲线下面积的计算方法。AUC是评估二分类模型性能最广泛使用的指标,其优势在于不受实际事件发生率或分类错误成本变化的影响。因此,当未来事件发生率或错误分类成本不稳定或未知时,AUC通常是最佳的性能评估指标。
AUC概述
AUC的取值范围在0.5到1之间。AUC等于0.5表示分类结果与随机猜测无异,完全不确定。AUC等于1则表示实现了零错误的完美分类,但这通常是理论上的理想状态。在实际应用中,一个正常、良好到优秀的AUC值通常在0.65到0.85的范围内。
数据分析中的一个常见技术是开发一个二分类模型,通过调整某些参数,在已知结果的样本数据集上最大化AUC。这个数据集通常被称为训练集。在最终的课程项目中,你将计算自己在训练集上的AUC并应用此技术。
计算AUC的步骤
以下是计算给定分类模型和已知结果事件集合的AUC的具体步骤。你应该使用配套的AUC曲线Excel电子表格跟随操作。
准备数据
要绘制ROC曲线,我们从一个事件集合开始。在示例表格中,有七个事件,编号为1到7。每个事件都必须被分配一个分数和一个结果。我们的模型是一个输入事件已知数据并输出单一分数的程序或算法。这里我们专注于将分数和结果转化为ROC曲线,因此不关心分数是如何生成的。
二分类结果用1表示阳性,0表示阴性。要生成ROC曲线,我们需要知道真实结果,以及我们的模型在每个可能的阳性分类阈值下的效果。
排序与设定阈值
我们首先将所有事件按分数排序。请注意,表格中已经为你完成了排序。此方法要求所有事件必须严格按照分数进行排序。
然后,我们将沿着列表向下进行,在每个不同的可能阈值处执行一次分类。我们使用的阈值称为活动阈值。我们使用的第一个阈值实际上是一个高于最高分数的数字。在这个阈值下,所有事件都被分类为阴性。因此,没有假阳性,也没有真阳性。
我们将继续处理列表,在最低的阈值处,即大于或等于-3时,每个事件都被分类为阳性。因此,我们将有3个真阳性,等于我们集合中实际的阳性数量。但所有阴性结果都被错误地分类为假阳性。
计算假阳性率与真阳性率
ROC曲线衡量的是模型在每个可能阈值下的有效性。在本例中,从高于最高分到低于或等于最低分共有8个阈值。我们需要将假阳性和真阳性的总数转化为假阳性率和真阳性率。
要计算假阳性率,我们将每个特定阈值下的假阳性数量除以真实的阴性总数(4)。同样,真阳性率是真阳性数量除以真实的阳性总数(3)。
例如,选取阈值“大于或等于1”。在此阈值下,有三个结果:两个阳性结果和一个阴性结果。阴性结果被错误分类为阳性,因此有一个假阳性。两个实际的阳性结果被正确分类,因此有两个真阳性。假阳性率是1除以4,等于0.25。真阳性率是2除以3,约等于0.67。这个有序数对(0.25, 0.67)在我们的ROC曲线上对应一个点。
绘制ROC曲线与计算面积
当我们从列表顶部向下处理时,我们从假阳性率和真阳性率均为0的点开始,然后随着列表向下,逐步向右上方移动,直到到达点(1, 1),此时所有事件都被分类为阳性。
接下来,我们将对这些矩形区域的面积求和。我们有四个矩形。请注意,在任何两点之间,只有X轴值或Y轴值会发生变化,不会两者同时变化。这是因为我们使用的阈值变化很小,每次只能将一个结果从阴性分类切换到阳性分类。因此,只有假阳性率或真阳性率其中之一会改变。
我们通过计算每个矩形的宽度乘以高度来求和面积,从而得到分类模型的整体效能评估。
- 第一个矩形:宽度为
0.25 - 0,高度为0.67。 - 第二个矩形:宽度为
0.5 - 0.25,高度为0.67。 - 第三个矩形:宽度为
0.75 - 0.5,高度为1。 - 第四个矩形:宽度为
1 - 0.75,高度为1。

这些面积之和即为ROC曲线下面积。

混淆矩阵与ROC点的关系
需要指出的是,每个阈值都有其对应的混淆矩阵,这些矩阵已在你的电子表格中提供。我们有不变的结果:三个真实的阳性结果和四个真实的阴性结果。但我们的分类在变化。每次我们向下移动列表时,我们都在将一个项目从阴性分类转变为阳性分类。接着,我们将处理项目2,将其从阴性分类转变为阳性分类。你会看到,每次只有一个项目会发生变化。然后,我们查看假阳性率和真阳性率,这就得到了ROC曲线上的点。
总结


本节课中,我们一起学习了ROC曲线下面积的计算方法。我们了解了AUC作为模型性能指标的优势,并逐步演练了从数据排序、设定阈值、计算假阳性率与真阳性率,到最终绘制ROC曲线并计算其下面积的完整过程。这是本课程提供的最有用的工具之一,希望你能熟练掌握并在自己的项目中应用。
051:多变量二分类分析 📊


在本节课中,我们将要学习如何将多个输入变量组合起来,构建一个更强大的二分类预测模型。我们将通过一个具体的例子,理解为什么以及如何标准化数据,并比较不同方法的效果。
在第一个二分类问题中,我们只有一个输入变量。那是一个癌症诊断的例子,我们根据蛋白质水平对样本进行排序。然后我们设定不同的阈值,高于阈值则判定为阳性测试结果,低于阈值则判定为阴性测试结果。这个练习旨在帮助你理解ROC曲线下面积值的来源,以及在不同阈值下,你会得到不同的假阳性率和真阳性率,进而在绘制ROC曲线的XY平面上得到不同的坐标点。
然而,在商业问题中,我们通常拥有大量输入变量。我们希望将它们组合起来,以创建最佳的模型来预测我们的二元结果。
那么,如何组合这些变量呢?存在多种可行的方法。我们在此教授的方法旨在有效、简单,并且在很大程度上能避免过拟合,同时允许你进行实验并清晰地看到结果。
让我通过一个简单的例子来说明什么是“组合变量进行二分类”。
我们有一个包含12名士兵的例子。士兵的任务是在一小时内背负100磅(约45.4公斤)的背包行进四英里(约6.4公里)。我为偏好公制单位的同学提供了公制版本的数据。我们掌握的每名士兵的数据包括他们的身高、体重和年龄。我们有一系列结果,阳性结果(完成任务)标记为1,阴性结果(未完成任务)标记为0。因此,我们的基础数据表看起来是这样的。
现在,我们可以按某个特定变量进行排序。这里我按身高排序。你可以在随附的Excel电子表格中自己操作,只需选择数据,使用排序功能,选择降序,当它询问是否扩展所有行时,选择“是”,然后所有数据将重新排序。
以下是我按身高排序后,设定一个阈值(例如取前四名)得到的结果:
- 假阳性率:1/6
- 真阳性率:1/2
接着,假设我改为按体重排序。同样,我查看前四名。因为数据中有六个1和六个0,我得到的结果是:
- 假阳性率:1/6
- 真阳性率:1/2
显然,仅使用单一变量(身高或体重)得到的结果并不理想。
我希望能够以某种方式组合这些变量,从而获得更好的结果。我的建议是,当你组合尺度差异很大的变量时,首先对它们进行标准化。这样能让你更容易确定应该赋予每个变量多大的相对权重。在随附的电子表格中,我已经为你完成了这一步。

以下是标准化处理后的步骤与结果:
- 对身高和体重数据进行标准化。
- 将标准化后的身高值与标准化后的体重值相加,得到一个综合分数。
- 根据这个综合分数进行排序。
如果我们取综合分数最高的前四名作为阈值,现在得到的结果是:
- 假阳性率:0
- 真阳性率:4/6 ≈ 0.667
在这个阈值下,通过将身高和体重信息组合成一个单一分数,我们得到了比单独使用身高或体重分数好得多的结果。
你可能会想,为什么我们不直接把原始身高(英寸)和原始体重(磅)相加,而是要先转换成标准化单位呢?本课程后面会详细解释标准化。原因在于,根据所使用的身高和体重单位,我们会得到完全不同的结果。
如果我们像这里展示的那样,将以磅为单位的体重和以英寸为单位的身高直接相加,那么体重会主导结果,我们得到的前四名排名几乎与仅基于体重的排名相同。结果是:
- 假阳性率:1/6 ≈ 0.167
- 真阳性率:3/6 = 0.5
另一个极端是,如果我们使用以毫米为单位的身高和以公斤为单位的体重,结果将几乎与仅基于身高的排名相同。
通过对数据进行标准化,我们找到了一种方法,使两个输入变量具有同等的重要性。例如,一个比平均身高高出两个标准差的身高值,其影响与一个比平均体重大出两个标准差的体重值是相同的。
显然,这是一个强大得多的二分类器。如果你计算完整的ROC曲线下面积,你会发现它远优于使用单一变量的模型。

本节课中,我们一起学习了如何通过标准化处理多尺度变量,并将它们组合成一个综合评分,以构建更有效的二分类模型。我们了解到,直接组合原始数据可能因单位不同而导致某一变量主导结果,而标准化能确保每个变量被公平对待,从而提升模型的整体预测性能。
052:量化信息优势 📊
在本节课中,我们将学习如何量化“信息优势”。在商业领域,获取并保持信息优势通常是成功的关键。我们将探讨如何将这种抽象的优势转化为具体的数值,从而评估信息获取行为的价值。

信息优势的重要性
获取并保持信息优势,通常是商业成功的关键。
能够量化这种信息优势,是非常可取的。
量化信息的需求
我想知道,当我了解一个新事实、购买一个新的专有数据库,或者花费数百万美元构建一个新的机器学习预测系统(用于分析现有数据以预测未来客户趋势)时,我究竟获得了多少信息。
我希望能够用数字来衡量:我之前知道多少,我现在知道多少,其中的差异是什么。这个差异就是信息优势。
我希望能够为这种信息优势赋予一个具体的货币价值。
本模块的核心方法
本模块提供的方法,旨在精确量化各种不同场景下的不确定性减少或信息内容。
上一节我们明确了量化信息优势的目标,本节中我们来看看本模块将提供的核心解决方案。
本模块将提供具体方法,用于精确量化以下不同类型场景中的不确定性减少或信息增益:
- 学习新事实:获取离散知识。
- 购买专有数据库:获得结构化数据资产。
- 构建预测系统:通过分析现有数据生成对未来趋势的洞察。
本节课中,我们一起学习了量化信息优势的必要性与基本概念。我们了解到,信息优势是商业成功的核心,而将其量化为具体的数值(如不确定性减少的程度或信息增益量)对于评估投资决策(如购买数据或开发系统)至关重要。本模块后续将提供实现这种量化的具体方法。
053:概率与信息熵 📊

在本节课中,我们将学习数据分析中两个核心的不确定性度量:概率与信息熵。我们将从概率的基本概念入手,然后探讨信息熵的定义、计算方式及其与概率分布的关系。
概率:不确定性的基本度量


在应用数据分析中,我们使用两种不同但相关的不确定性度量:概率和信息熵。你可能已经熟悉概率。
在贝叶斯逻辑数据分析中,概率写作 P(x),是衡量对某个陈述真实性的信念程度的指标。按照惯例,所有概率都映射到0到1之间的实数。
对于一个陈述,概率 P(A) = 1 意味着该陈述确定为真,而 P(A) = 0 意味着该陈述确定为假。在缺乏确定性的情况下,P(A) 的值总是大于0且小于1。
上一节我们介绍了概率的基本概念,本节中我们来看看概率分布。

概率分布:可能性的集合

概率分布是单个概率的集合,其总和为一。



例如,我们有一个抛硬币的概率分布。为了使它成为一个概率分布,其概率总和需要等于一。并且每种可能性(在本例中,一次抛掷出现反面或正面)需要是互斥的(硬币只能做一件事)和穷尽的(没有第三种可能性)。


假设 A 是陈述“硬币在一次抛掷中出现反面”。那么 P(A) 就是硬币在一次抛掷中出现反面的概率。其否定 ¬A 的概率 P(¬A),则是硬币在一次抛掷中出现正面的概率。

以下是关于概率的基本定义:
- 概率需要大于等于0且小于等于1。
- 给定概率分布的所有概率之和需要等于一。
- 单个事件 Xᵢ 需要是穷尽的(总和为一)且互斥的。


我们之前说过,确定性由0和1表示,所有其他状态由大于0且小于1的值表示。仅基于这些基本事实,我们就有一套完整的代数规则,允许我们对单个概率进行加、减、乘、除以及其他关联操作。


信息熵:分布的整体不确定性度量


信息熵,写作随机变量 X 的 H(X),是衡量整个概率分布不确定性的指标,以信息比特为单位。
一比特信息是传达一个二元选择(例如0和1之间,就像数字开关的开/关位置)所需的信息量。

熵的计算公式如下:
H(X) = Σ [ P(xᵢ) * log₂(1 / P(xᵢ)) ]
这个总和被称为概率分布的熵。正如我所说,它以比特为单位,因为我们在计算时使用以2为底的对数(尽管你也可以使用其他底数,并通过换底规则进行转换)。

因此,我们也有一个一致的熵代数,允许我们对它们进行加、减、乘以及其他组合和关联操作。
最大熵与最小熵
当我们没有依据在不同备选方案之间做出选择时,熵达到最大。



以抛硬币为例。如果我们对硬币一无所知,根据简单的对称性,我们可以将任何一面标记为反面或正面,这表明如果我们对硬币完全无知,最合理的分布是各50%的结果分布。



同样,对于掷骰子这种有六种可能结果的情况,最大熵分布也是均匀分布。


事实证明,对于一个具有 n 种可能结果的均匀分布,其熵等于 log₂(n)。这也是离散分布的最大熵,因此我们知道任何其他分布的熵都会低于这个值。


那么,当我们知道结果时,熵是多少呢?



在我们抛掷硬币并且它出现反面之后,其概率变为1,熵则变为0。类似地,如果我们掷骰子并且它出现四点,所有其他可能性都坍缩为零,这个分布看起来就像 [0, 0, 0, 1, 0, 0],熵也等于零。
因此,熵是一个有趣的度量:我们拥有的不确定性越大,熵就越大。但它的最小值是零,不能为负。




总结


本节课中,我们一起学习了概率与信息熵这两个核心概念。我们明确了概率 P(x) 是衡量单个事件信念度的指标,其值在0到1之间,总和为1的集合构成概率分布。而信息熵 H(X) 则是衡量整个概率分布不确定性的指标,通过公式 Σ [ P(xᵢ) * log₂(1 / P(xᵢ)) ] 计算,以比特为单位。我们了解到,均匀分布时熵最大(log₂(n)),而当结果完全确定时熵最小(为0)。理解这两个概念是进行深入商业数据分析的重要基础。
054:猜谜游戏中的熵

在本节课中,我们将通过一个猜数字游戏来理解信息论中的核心概念——熵。我们将探讨如何量化不确定性,并介绍联合熵与条件熵的定义。
猜数字游戏与熵的引入
现在考虑一个猜数字游戏。我的朋友从1到100之间选择一个数字。我需要通过提问来猜出这个数字,但只能问“你的数字是否大于X?”这种简单的是或否问题。
我的最佳策略是每次排除一半的可能性。假设我的朋友选择了数字31,但我当然不知道。我的提问顺序如下:数字大于50吗?否。数字大于25吗?是。数字大于37吗?否。数字大于31吗?否。数字大于28吗?是。数字大于30吗?是。数字是31吗?是。
我总是能在不超过七个问题内猜出你的数字。如果我们多次进行这个游戏,并且你真正随机地选择数字,平均而言,我需要 6.64 个问题才能得到正确答案。你可以和朋友试试看。

为什么需要6.64个问题?因为这是编码100种可能状态所需的比特数。换句话说,2^6.64 = 100,或者说 log₂(100) = 6.64。
扩展游戏:一万种可能性
上一节我们看到了100种可能性的情况,本节中我们来看看规模更大的游戏。我的朋友从1到10,000之间选择一个数字。我完全不知道你选了什么数字。
为了找出答案,我需要提问的最大问题数是多少?结果是我需要少于14个问题。平均而言,我需要 13.29 个问题。为什么?因为 log₂(10000) = 13.29。13.29就是这个包含一万种可能性的游戏的不确定性,即熵。

换句话说,当我完全不知道你选了哪个数字时,我最初的不确定性可以量化为 13.29比特。因为平均而言,这就是当我得知你实际选择的数字时,我将获得的信息量。
熵的基本与扩展定义
我们已经讨论了熵的基本定义,它等于概率分布中所有离散可能结果的概率与其倒数的对数之和,公式为:H = Σ p(i) * log₂(1/p(i)),其中 i 从 1 到 n。
现在我们想看看一些相关的定义。什么是联合熵,即 H(X, Y) 呢?在本课程早期讨论诊断和混淆矩阵时,我们已经见过联合分布的例子。那个网格会反复出现,因为二元分类是我们数据分析的基本原则之一。
你可能还记得我们有过这样一张图,我们可以说这是我们的随机变量 X,这是我们的随机变量 Y。而 E, F, G, H 是联合概率。因此,联合概率的熵 H(E, F, G, H) 就是我们所说的联合熵 H(X, Y)。


条件熵的概念
现在你可能再次记起,在我们的混淆矩阵中,有条件概率的概念。例如,真正率 = E / A,这是在给定患有疾病的条件下,检测呈阳性的条件概率。
类似地,我们也有条件熵的概念。它等于 Y 取特定值 y₁ 的概率乘以在 Y=y₁ 条件下 X 的熵,再加上 Y 取另一个值 y₂ 的概率乘以在 Y=y₂ 条件下 X 的熵。公式表示为:H(X|Y) = P(Y=y₁) * H(X|Y=y₁) + P(Y=y₂) * H(X|Y=y₂)。

使用我们的混淆矩阵举例说明:条件熵等于概率 P(Y = y₁),即 C,乘以熵 H(E/C, G/C),再加上概率 D 乘以熵 H(F/D, H/D)。


我理解这看起来相当抽象,但当你做一些练习后,你会发现它并不像看起来那么难。




本节课中我们一起学习了如何通过猜数字游戏直观理解熵,即信息的不确定性度量。我们明确了熵的基本计算公式,并扩展学习了联合熵与条件熵的定义,这些是信息论中量化信息关系的重要工具。
055:依赖性与互信息 📊


在本节课中,我们将要学习两个概率分布之间的关系,特别是如何量化一个变量(如测试结果)能为我们揭示另一个不可直接观测的变量(如真实状态)提供多少信息。我们将介绍互信息这一核心概念,并探讨其与变量独立性之间的关系。
上一节我们介绍了熵的概念,它衡量了随机变量的不确定性。本节中我们来看看当存在两个不同概率分布时,它们的熵值之间存在何种关系。
除非这两个分布是独立的,否则它们之间会存在某种“重叠”。这种重叠就是所谓的互信息。



我们对互信息非常感兴趣,因为它代表了当我们观察到某些数据(如测试结果)时,我们能从中了解到多少关于另一个无法直接观测的事物(即变量X)的信息。
我们通过测量互信息来量化这种信息增益。具体方法是:先计算我们最初对变量X的不确定性,即 H(X)。然后减去在我们得知变量Y的信息后,X仍然剩余的不确定性,即 H(X|Y)。

因此,互信息的计算公式为:
I(X; Y) = H(X) - H(X|Y)

我们将展示一些例子。当实际处理一些问题时,这个概念会变得不那么神秘。


我们之前简要讨论过独立与依赖概率分布之间的区别。我们说,独立性的定义是联合分布等于乘积分布。
以我们的混淆矩阵为例,这意味着:
E = A * C
F = A * D
依此类推。
这就是变量X和Y相互独立的场景。在这种情况下,互信息等于零。
如果我们再次绘制示意图,这两个分布的熵值范围将是互不连接的。因此,独立性的另一个定义是:当互信息等于零时。
你可能记得我提到过,互信息永远不会是负数。它总是大于或等于零。
如果联合分布不等于乘积分布,那么这两个分布就是依赖的,并且互信息大于零。在这种情况下,总是有可能通过研究你能直接观测的分布,来了解你无法直接访问的分布的信息。
以上就是我们目前需要了解的关于熵和互信息的所有内容。

本节课中我们一起学习了互信息的概念及其计算公式 I(X; Y) = H(X) - H(X|Y)。我们明确了互信息衡量了两个变量之间共享的信息量,当变量独立时互信息为零,当变量相关时互信息大于零。理解互信息是评估数据间依赖关系和进行有效商业分析的关键一步。
056:蒙提霍尔问题与信息增益 🎲

在本节课中,我们将学习一个著名的概率论问题——蒙提霍尔问题,并探讨如何通过信息熵和互信息来量化主持人行为所传递的信息量。

概述
蒙提霍尔问题源自美国一档名为《Let‘s Make a Deal》的电视游戏节目。我们将分析这个问题的经典场景,理解其反直觉的概率结果,并最终运用信息论工具,精确计算主持人打开一扇门这一行为为我们提供了多少“信息”。
问题背景
著名的蒙提霍尔问题以美国一档长期播出的电视游戏节目《Let‘s Make a Deal》的主持人命名。

一个贵重奖品被藏在三扇外观完全相同的门后。如果门看起来不完全相同,请想象它们是相同的。参赛者如果选中了正确的门,就能赢得奖品。
在游戏开始时,参赛者被告知可以任意选择一扇门。为了方便说明,我们假设参赛者选择了1号门。
由于没有选择依据,可以合理地假设奖品在任意一扇门后的概率都是三分之一。因此,参赛者获胜的初始概率是三分之一。
主持人的行动与选择
随后,主持人蒙提·霍尔会打开另一扇门,从而排除一个选项。
接着,在揭示奖品位置之前,他会给参赛者一个选择:是否要更换自己最初选择的门。
因此,蒙提霍尔问题的数学核心是:参赛者应该更换门吗?是坚持选择1号门,还是换到我们标记为2号的门?
更数学化地表述这个问题:在3号门被排除后,奖品在1号门和2号门后的新概率分布是怎样的?现在其中一扇门的概率是否比另一扇门更大?
概率分析
一种常见的直觉是,概率现在会在两扇门之间平均分配,各为二分之一。然而,这是不正确的。
事实上,奖品在1号门后的概率仍然保持在三分之一,就像最初选择它时一样。而原本与3号门相关的所有概率都转移到了2号门上,因此奖品在2号门后的概率现在是三分之二。
所以正确答案是:参赛者应该更换门,这样获胜的机会将翻倍。
理解的关键
理解这一结果的关键在于认识到,蒙提·霍尔并不是随机打开三扇门中的一扇。
如果其中一扇门是随机打开的(例如因为地震,恰好是3号门),那么此时奖品在剩余两扇门后的概率可能确实是各占50%。
但蒙提·霍尔的行为受到严格限制。他不能打开参赛者已经选择的门,也不能打开藏有贵重奖品的那扇门(可能是这扇,也可能是那扇,但总之不能是他打开的那扇)。
因此,蒙提·霍尔是在完全知晓奖品位置的情况下,有目的地选择打开一扇门。
- 有三分之一的时间,奖品就在参赛者最初选择的门(1号门)后。在这种情况下,蒙提可以随机选择打开另外两扇门中的任意一扇。
- 但有三分之二的时间,奖品在参赛者没有选择的两扇门中的一扇后面。在这些情况下,蒙提必须打开另一扇(没有奖品的)门,他别无选择。
所以,在三分之二的情况下,蒙提的行为实际上暗示了奖品的位置,只是我们不知道具体是哪三分之二的情况。
量化信息:从熵的角度


我一直觉得这个问题非常有趣。但有一个问题始终困扰着我,或者说我真正想知道答案的是:我接受蒙提霍尔打开门时向我们传递了一些信息这个事实,但我想知道具体是多少信息?他提供了达到完全确定所需信息的百分之几?
蒙提本可以直接告诉我们奖品在哪里,那样就是100%的信息,游戏结束。但他只是消除了一些不确定性,那么到底消除了多少?10%,20%,还是5%?
实际上,我们可以通过计算初始概率分布的信息熵,然后与主持人行动后的新概率分布的信息熵进行比较,来找到答案。
熵与互信息的计算
让我们通过这个简单的例子来计算一下。

初始状态,每扇门的概率都是三分之一:P = [1/3, 1/3, 1/3]。
我们的初始信息熵 H(X) 计算如下:
H(X) = (1/3)*log₂(3) + (1/3)*log₂(3) + (1/3)*log₂(3) = log₂(3)
计算结果约为 1.585 比特。
在主持人打开一扇空门(例如3号门)后,新的概率分布变为:P = [1/3, 2/3, 0]。
此时的条件熵 H(X|Y)(已知主持人行动后的不确定性)为:
H(X|Y) = (1/3)*log₂(3) + (2/3)*log₂(3/2)
计算结果约为 0.918 比特。

计算信息增益
现在,使用互信息公式 I(X;Y) = H(X) - H(X|Y):

I(X;Y) = 1.585 - 0.918 = 0.667
所以,蒙提通过打开一扇门,为我们提供了 0.667 比特 的信息。


如果你想了解信息增益的百分比(PIG),可以这样计算:
0.667 / 1.585 ≈ 0.421

因此,蒙提·霍尔为我们提供了确定奖品位置所需全部信息的 42.1%。

总结

本节课我们一起学习了蒙提霍尔问题。我们首先分析了这个经典概率问题的场景和反直觉的答案——更换选择能将获胜概率从1/3提升到2/3。随后,我们超越了定性理解,引入了信息熵和互信息的概念,定量地计算出主持人打开一扇门这一行为所传递的信息量约为0.667比特,相当于消除了约42.1%的不确定性。这展示了信息论工具在量化决策过程中信息价值方面的强大应用。
057:单次抛硬币学习(上)🎲
在本节课中,我们将学习如何利用贝叶斯定理和熵的概念,从单一数据点中提取信息并量化学习效果。我们将通过一个“公平硬币还是作弊硬币”的经典例子,来理解如何将问题转化为概率问题,并使用数学工具进行推理。
贝叶斯定理:从条件概率到信息提取
上一节我们介绍了条件概率和联合概率的基本关系。本节中我们来看看如何利用这种关系进行逆向推理。
我写下的公式可以解读如下:给定B的条件下A发生的概率,乘以B发生的概率,等于A和B同时发生的联合概率。
用公式表示即:
P(A|B) * P(B) = P(A, B)
因此,给定B的条件下A发生的条件概率,乘以B的概率,就等于联合概率。
我们常常会遇到这样的情况:我们知道给定B的条件下A的概率 P(A|B),但我们真正想要的是给定A的条件下B的概率 P(B|A)。

那么,我们如何才能得到它呢?根据对称性,A和B的联合概率 P(A, B) 等于B和A的联合概率 P(B, A)。

因此,它等于给定A的条件下B的概率,乘以A的概率:
P(B|A) * P(A) = P(A, B)

现在,我们可以将方程两边同时除以 P(A),从而分离出我们想要的项。

我们可以说,给定A的条件下B的概率等于:
P(B|A) = [P(A|B) * P(B)] / P(A)


这就是著名的贝叶斯定理。
我相信你一定听说过它。

贝叶斯定理是我们拥有的最强大的工具之一,它能够帮助我们从数据中学习。

贝叶斯定理是将事实转化为知识的最有力工具之一。


熵:量化信息获取量
熵是我们将要使用的一个度量标准,用于精确追踪我们从事实中学到了多少信息。

可以说,贝叶斯定理负责完成工作,而熵负责记录得分。
贝叶斯定理和熵都作用于概率分布。从这个意义上说,概率分布是信息的载体。
当我们能够将问题框架化,使得答案以概率分布的形式给出时,我们就可以使用贝叶斯定理来提取有用的信息,并使用熵来记录我们到底提取了多少信息。

幸运的是,将问题用概率术语来表述通常是可行的。

在本课程中,我们有很多这样的例子。

抛硬币问题:一个具体案例
我们的一个朋友拿出一枚硬币。他说,这枚硬币要么是公平的,在这种情况下,出现反面的概率是50%,出现正面的概率是50%;要么是作弊的或弯曲的,在这种情况下,出现反面的概率是40%,出现正面的概率是60%。
所以,这可能是一枚你可以用来赌博的硬币,用来对付那些愿意以公平赔率或二比一赔率来预测正反面的无辜者。
我的朋友没有告诉我这枚硬币是公平的还是作弊的,所以我没有任何先验知识。

然后,我的朋友将只抛掷这枚硬币一次。
我们将观察到“正面”或“反面”这个事实。
所以我们只有两种可能的事实:正面或反面。

我希望能够做到的是,告诉我的朋友,我到底学到了关于他使用的是哪种硬币的信息,以及通过观察这枚硬币的这一次抛掷,我到底提取了多少信息,我的不确定性减少了百分之多少。
这将会非常令人印象深刻,不是吗?
我们处理这类问题的方法,被称为逆概率问题,就是通过使用贝叶斯定理。

本节课总结

本节课中我们一起学习了贝叶斯定理的核心公式及其在信息推理中的重要性。我们了解到,贝叶斯定理是更新信念、从数据中学习的强大工具,而熵则用于量化学习过程中获得的信息量。最后,我们引入了一个具体的“单次抛硬币”逆概率问题,为下一节应用这些概念解决实际问题做好了准备。
058:单次抛硬币学习(下)🔍
在本节中,我们将继续学习如何应用贝叶斯定理和熵的概念,通过一次抛硬币的结果来更新我们对硬币是否公平的信念,并量化我们从中获得的信息量。

上一节我们介绍了如何用概率符号表示问题,本节中我们来看看如何具体计算和解读结果。
符号定义与已知概率
首先,我们明确所有符号的含义和已知的概率值。
- 用字母 A 代表事件:硬币结果是反面(Tails)。
- 用 ¬A 代表事件:硬币结果是正面(Heads)。
- 用字母 B 代表参数:硬币是公平的(Fair)。
- 用 ¬B 代表参数:硬币是偏斜的(Crooked)。
以下是已知的先验概率和条件概率:
- 硬币是公平的初始概率:
P(B) = 0.5 - 硬币是偏斜的初始概率:
P(¬B) = 0.5 - 已知硬币公平时,抛出反面的条件概率:
P(A|B) = 0.5 - 已知硬币偏斜时,抛出反面的条件概率:
P(A|¬B) = 0.4
应用贝叶斯定理
我们的目标是计算在观察到一次反面后,硬币是公平的概率,即 P(B|A)。我们将使用贝叶斯定理。
根据贝叶斯定理,公式如下:
P(B|A) = [P(A|B) * P(B)] / P(A)
我们已经知道 P(A|B) 和 P(B) 的值,但还需要计算 P(A),即观察到反面的总概率。
计算总概率 P(A)
为了计算 P(A),我们使用全概率公式。该公式指出,一个事件的总概率等于它在所有互斥场景下发生概率的总和。
具体到我们的问题,观察到反面(A)有两种可能:硬币是公平的(B)或硬币是偏斜的(¬B)。因此:
P(A) = P(A 且 B) + P(A 且 ¬B)
利用乘积规则 P(A 且 B) = P(A|B) * P(B),我们可以将上式改写为:
P(A) = P(A|B) * P(B) + P(A|¬B) * P(¬B)


代入已知数值:
P(A) = (0.5 * 0.5) + (0.4 * 0.5) = 0.25 + 0.2 = 0.45


所以,单次抛掷出现反面的总概率是 0.45。
计算后验概率
现在,我们可以将数值代入贝叶斯公式,计算后验概率。
1. 硬币是公平的后验概率:
P(B|A) = [P(A|B) * P(B)] / P(A) = (0.5 * 0.5) / 0.45 ≈ 0.556
2. 硬币是偏斜的后验概率:
P(¬B|A) = [P(A|¬B) * P(¬B)] / P(A) = (0.4 * 0.5) / 0.45 ≈ 0.444

计算结果表明,在观察到一次反面后,我们对硬币状态的信念从最初的 (0.5, 0.5) 更新为 (0.556, 0.444)。这意味着硬币更可能是公平的。
量化信息增益
最后,我们来量化通过这次观察我们获得了多少信息,即不确定性的减少量。我们使用熵(Entropy)来计算。
初始分布的熵(50/50分布)为:
H(初始) = H(0.5, 0.5) = 1 bit
观察到一次反面后,新分布的熵为:
H(新) = H(0.556, 0.444) ≈ 0.9909 bit

信息增益(IG)是熵的减少量:
IG = H(初始) - H(新) = 1 - 0.9909 = 0.0091 bit
以百分比表示的信息增益为:
0.0091 / 1 * 100% ≈ 0.91%
总结

本节课中我们一起学习了如何完成一次完整的贝叶斯更新。我们从定义事件和参数开始,应用贝叶斯定理和全概率公式,计算了在观察到一次硬币反面后,硬币是公平的后验概率(从0.5更新为0.556)。最后,我们通过计算熵的差值,量化了这次观察所带来的信息增益——大约0.0091比特,相当于减少了不到1%的不确定性。这个例子清晰地展示了如何用数据(一次抛掷结果)来更新我们的信念,并衡量学习的“量”。
059:高斯分布初探


概述
在本节课中,我们将要学习数据分析中一个至关重要的概念——高斯分布。我们将了解为什么它是建模不确定性的核心工具,并初步探索其基本特性。
课程内容
一名尽责的数据分析师的工作,始终包含为剩余的不确定性提供一个模型。
因此,一个好的模型既包含信号,也包含噪声。它包含了未来经验中无法用现有数据解释的那一部分的表示。
无论我们是在为一项资产的财务回报的不确定性建模,还是为线性回归模型驱动的预测所伴随的不确定性建模,我们都会反复地求助于一种特殊的连续分布,即高斯概率密度函数。
它是数据分析中迄今为止最常用的噪声或不确定性模型,并且拥有许多我们现在即将研究的特殊性质。
总结
本节课中,我们一起学习了高斯分布在数据分析中的核心地位。我们了解到,一个完整的模型需要同时描述可解释的信号和不可预测的噪声,而高斯分布正是描述这种噪声或不确定性的最常用、最重要的数学模型。在接下来的课程中,我们将深入探讨它的具体特性和应用。
060:标准化方法入门 📊
在本节课中,我们将要学习数据标准化的基本方法。标准化是一种将不同尺度和单位的数据转换为统一标准的过程,便于后续的分析和比较。我们将通过一个具体的例子,分步讲解如何计算一组数据的平均值、方差、标准差,并最终将其转换为Z分数。

第一步:计算平均值、方差与标准差
为了标准化一组数字,首先需要计算它们的平均值。接着,计算这组数据的方差。
你可能还记得,一组数字的方差公式是:
公式:
$$
\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2
$$
其中,n是数据点的数量,x_i是每个数据点,μ是数据的平均值(用希腊字母μ表示)。方差衡量的是每个数据点与平均值之间距离平方的平均值。

对于本例中的数据集,计算出的方差是665.23。
接下来,计算标准差。需要说明的是,这里计算的都是总体指标,即总体方差和总体标准差。


公式:
$$
\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2}
$$

标准差是方差的平方根。因此,本例的标准差是665.23的平方根,计算结果为25.79。

现在,我们记录下两个最重要的值:平均值(μ)和标准差(σ)。


第二步:从每个值中减去平均值

上一节我们计算了数据的平均值和标准差,本节中我们来看看标准化的具体操作。

第二步是从每个原始数据值中减去整个数据集的平均值。

例如,对于某个值,减去平均值后得到的结果是-34.67。
第三步:除以标准差

完成减法后,我们进入第三步。
第三步是将第二步得到的结果除以数据集的标准差。


具体操作是,将每个减去平均值后得到的数值,都除以之前计算出的标准差25.79。


第四步:理解Z分数

经过第三步的计算,我们得到了一组新的数值,例如-1.34。

我们将这组新的数值称为原始数据X的Z分数。通常用x_{z_i}来表示第i个标准化后的值。
以下是关于Z分数的重要特性:

- 平均值为0:所有Z分数的平均值总是等于0。
- 标准差为1:所有Z分数的标准差总是等于1。
你可以将Z分数的计算公式总结如下:


公式:
$$
z_i = \frac{x_i - \mu}{\sigma}
$$

其中,x_i是原始数据点,μ是原始数据的平均值,σ是原始数据的标准差。这个公式总是能产生一个平均值为0、标准差为1的新数据集。


本节课中我们一起学习了数据标准化的完整流程。我们首先计算了数据的平均值、方差和标准差,然后通过“减去平均值”和“除以标准差”两个步骤,将原始数据转换为Z分数。Z分数标准化后的数据具有均值为0、标准差为1的特性,这使得不同数据集之间可以进行公平的比较。
061:Excel中的标准正态概率分布 📊
在本节课中,我们将要学习统计学和数据挖掘中一个极其重要且实用的连续概率分布——高斯分布,也称为正态分布。我们将重点探讨其标准形式,即标准正态分布,并学习如何在Excel中运用相关函数进行计算。
上一节我们介绍了数据标准化的概念,本节中我们来看看一个经过标准化的特殊正态分布。
标准正态分布的定义与特性
标准正态分布是一种特殊的正态分布,它具有三个关键属性,使其形状固定且便于计算。
以下是定义标准正态分布的三个条件:
- 曲线下总面积等于1。这使其能作为概率分布函数使用。
- 均值(μ)等于0。
- 标准差(σ)等于1(这也意味着方差等于1)。
当满足以上条件时,我们就得到了标准正态分布。其概率密度函数由以下公式描述:
f(z) = (1 / √(2π)) * e^(-z²/2)
其中,z 代表标准分数(Z-Score)。该曲线呈对称的钟形,峰值约为0.399,精确值为 1/√(2π)。

累积分布函数与概率计算

标准正态分布的累积分布函数表示随机变量取值小于或等于某个特定 z 值的概率。其数学表达式为积分形式:
P(Z ≤ z) = ∫(从-∞到 z) f(t) dt

这意味着,如果我们想计算某个Z值左侧的概率(即累积概率),只需计算从负无穷到该Z值曲线下的面积。


在图形上,以均值0为中心,Z值右侧的曲线下面积即为该Z值对应的累积概率。

经验法则与概率集中性


标准正态曲线虽然理论上从负无穷延伸到正无穷,但概率高度集中在均值附近。以下是几个关键Z值对应的累积概率,这体现了著名的“经验法则”:


- 当
z = 1时,累积概率约为 0.841。即约84.1%的数据落在均值右侧一个标准差之内(结合左侧对称部分,约68%的数据落在均值左右一个标准差内)。 - 当
z = 2时,累积概率约为 0.977。 - 当
z = 3时,累积概率约为 0.998。 - 当
z = 4时,累积概率约为 0.999968。

由此可见,绝大多数数据(超过99.7%)都落在均值左右三个标准差的范围内。


在Excel中计算标准正态分布

Excel提供了两个非常便捷的函数来处理标准正态分布的计算,无需手动进行复杂的积分运算。

以下是这两个核心函数及其用法:
-
NORM.S.DIST(z, cumulative)函数- 功能:根据给定的Z值计算概率。
- 参数:
z:需要计算概率的标准分数。cumulative:逻辑值。通常设为TRUE,以返回累积分布函数值(即P(Z ≤ z))。
- 示例:
=NORM.S.DIST(2, TRUE)将返回约 0.9772,即Z值小于等于2的概率。
-
NORM.S.INV(probability)函数- 功能:根据给定的累积概率值反推对应的Z值。
- 参数:
probability:介于0和1之间(含)的累积概率值。
- 示例:
=NORM.S.INV(0.9772)将返回约 2,即累积概率达到97.72%时所对应的Z值。

在本课程中,几乎所有涉及正态分布的概率问题都可以通过这两个Excel函数轻松解决。


参数化模型的意义
在数据科学和商业分析中,当我们听到“参数化模型”时,它通常意味着模型假设输入数据、输出数据及噪声的概率分布是已知的、有固定形式的。如果未特别说明,这个分布通常就默认为高斯分布(正态分布)。标准正态分布作为其基准,为许多高级分析技术奠定了基础。


本节课中我们一起学习了标准正态分布的核心概念、重要特性及其在Excel中的实际应用方法。我们了解了如何利用 NORM.S.DIST 和 NORM.S.INV 函数在Z值与概率之间进行转换,并认识到正态分布在参数化建模中的基础地位。掌握这些知识是进行更深入商业数据分析的关键一步。
062:基于Z分数的概率计算
在本节课中,我们将学习如何使用Z分数和标准正态分布来计算特定事件发生的概率。我们将以SAT数学考试为例,演示如何将原始分数转换为Z分数,并利用正态分布表或函数来评估成绩的排名。
概述:理解Z分数与概率
上一节我们介绍了正态分布的基本概念。本节中,我们来看看如何利用Z分数进行具体的概率计算。Z分数是将一个数据点标准化到标准正态分布(均值为0,标准差为1)的度量,它使我们能够比较不同数据集中的数据,并计算特定值出现的概率。
SAT分数概率计算示例
假设你在SAT数学考试中获得了750分。SAT考试假设分数分布服从高斯分布(即正态分布),其均值(μ)为500,标准差(σ)为100。
为了计算获得750分或更高分数的概率,我们首先需要将原始分数750转换为Z分数。转换公式如下:
Z = (X - μ) / σ
其中,X是原始分数,μ是总体均值,σ是总体标准差。
将数值代入公式:
Z = (750 - 500) / 100 = 250 / 100 = 2.5
因此,750分对应的Z分数是2.5。这个Z分数告诉我们,750分比平均分高出2.5个标准差。
接下来,我们想知道有多少人的分数在750分或以上,也就是标准正态分布曲线下Z分数大于等于2.5所对应的右侧尾部面积。
我们可以使用标准正态累积分布函数(通常记为 norm.s.dist 或 Φ)来计算。Φ(2.5) 给出了Z分数小于等于2.5的概率(即曲线下左侧的面积)。我们需要的概率是1减去这个值。

计算过程如下:
Φ(2.5) ≈ 0.9938
那么,P(Z ≥ 2.5) = 1 - Φ(2.5) = 1 - 0.9938 = 0.0062
所以,大约有0.62%的考生在SAT数学部分获得了至少750分。这意味着如果你的SAT成绩是750分,你击败了大约99.38%的考生。
正态分布的可视化与参数
为了更直观地理解不同参数下的正态分布,我们可以参考一些图表。
下图展示了多个正态分布曲线,其中一个就是标准正态分布(均值为0,方差为1)。识别它的一个线索是其峰值大约在0.4左右。

(此图采用知识共享许可协议,来源于维基百科)
以下是图中各分布的特点:
- 标准正态分布(红色):其均值为0,方差为1。我们将其记作 N(0, 1)。
- 其他高斯分布:它们也都是正态分布。为了保持曲线下总面积始终为1(这是概率分布的基本要求),当方差增大时,分布曲线会变得更低、更扁平;当方差减小时,曲线会变得更高、更集中。
- 参数表示:任何高斯分布都可以用均值和方差(或标准差)来表示。例如,图中绿色的分布可以表示为 N(-2, 0.5),表示其均值为-2,方差为0.5。
通过调整均值和方差这两个参数,我们可以描述各种不同形态的正态分布,但它们都共享相同的钟形曲线特征。



总结

本节课中我们一起学习了基于Z分数的概率计算。我们首先通过SAT分数的例子,演示了如何将原始数据转换为Z分数。接着,我们利用标准正态分布表或函数,计算了特定Z分数对应的概率(即数据点的相对排名)。最后,我们通过可视化图表回顾了正态分布的形状如何随均值和方差的变化而变化,并理解了所有正态分布都可以通过标准化(计算Z分数)与标准正态分布联系起来。掌握这一方法,对于商业分析中评估业绩、分析风险和进行统计推断至关重要。
063:中心极限定理 📊
在本节课中,我们将要学习一个在数据分析和自然界中极其重要的概念——中心极限定理。理解这个定理,能帮助我们明白为何正态分布(高斯分布)如此普遍地出现在我们的数据中。
概述
高斯分布在自然界和数据分析工作中频繁出现,原因有很多。其中最重要的一个原因,就是中心极限定理。这个定理描述了当我们从任意分布中抽取样本并计算其均值时,会发生的一系列关键现象。
中心极限定理的核心内容
上一节我们介绍了中心极限定理的重要性,本节中我们来看看这个定理具体说了什么。
中心极限定理指出:如果你从一个具有定义明确的均值和定义明确的方差的任意分布中进行多次抽样,会发生以下重要现象。
以下是该定理描述的三个核心结果:
- 样本均值的均值趋近于总体均值:如果你抽取大量样本,这些样本均值的平均值将无限接近原始分布的总体均值。随着样本数量增加,样本均值会在总体均值附近波动,并最终越来越接近它。
- 样本均值的方差与总体方差直接相关:样本均值的方差(或标准差)与原始分布的方差有直接关系。具体来说,样本均值的标准差等于总体标准差除以样本量的平方根。公式表示为:
σ_sample_mean = σ_population / √n。我们稍后会详细探讨这一点。 - 样本均值的分布趋近于正态分布:最令人惊讶且重要的是,无论原始分布的形状如何(可以是均匀分布、指数分布等),只要样本量足够大,这些样本均值的分布本身会形成一个漂亮的正态分布(高斯分布)。
定理演示与实例
为了更直观地理解上述概念,我们来看一个具体的动画演示。
我们将从一个定义在区间 [-1, 1] 上的均匀分布中,抽取 500 个独立的样本,每个样本的大小为 25。然后,我们计算每个样本的均值,并将这些均值记录在直方图上。

原始均匀分布的均值是 0,标准差约为 0.577。
根据中心极限定理,随着抽样次数(此处为500次)足够多,三件事情必然发生:
首先,我们样本均值的平均值将趋近于 0,即原始分布的均值。
其次,样本均值的标准差将趋近于 0.115,这个值由原始分布的标准差 0.577 除以样本量 25 的平方根(即 5)计算得出:0.577 / 5 ≈ 0.115。
第三,尽管原始分布是均匀的(形状不同),但样本均值的直方图形成了一个近似的高斯分布(图中由曲线标出)。


这个演示清晰地验证了中心极限定理的威力:即使原始数据不是正态的,其样本均值的分布也会随着样本量增大而趋向于正态分布。
总结

本节课中我们一起学习了中心极限定理。我们了解到,该定理解释了为何正态分布如此普遍,它指出无论原始数据分布如何,其大量样本均值的分布都会趋近于正态分布,并且样本均值的均值等于总体均值,其标准差也与总体标准差和样本量相关。这是许多统计推断方法(如假设检验、置信区间)能够成立的理论基石。掌握这个定理,对于理解数据分析中的许多核心概念至关重要。
064:高斯分布代数运算 📊
在本节课中,我们将要学习高斯分布(正态分布)的代数运算。这些运算规则使得高斯分布在概率论和数据分析中非常强大和实用。
上一节我们介绍了高斯分布的基本概念,本节中我们来看看如何对它们进行数学运算。
概述:高斯分布的特性
高斯分布具有一系列独特的性质。除非你尝试组合其他概率分布并发现结果多么混乱,否则你很难体会到这些性质有多么不寻常。
加法运算:独立分布之和
首先,我们探讨如何将两个独立的高斯分布相加。
假设我们有两个独立的高斯概率分布。第一个分布的均值为 μ₁,方差为 σ₁²。第二个分布的均值为 μ₂,方差为 σ₂²。
如果我们从第一个分布中抽取一个样本,再从第二个分布中抽取一个样本,那么这两个样本之和所构成的新分布,其形态如下:
- 新分布的均值等于两个原始均值之和:μ_new = μ₁ + μ₂
- 新分布的方差等于两个原始方差之和:σ_new² = σ₁² + σ₂²
因此,如果我们想知道新分布的标准差,只需计算方差之和的平方根:σ_new = √(σ₁² + σ₂²)。
这里有一个非常重要的提醒:上述规则仅当两个分布相互独立时才成立。如果它们之间存在依赖、相关性或协方差,求和方式会有所不同,我们需要增加一个调整项,这将在稍后讨论。
我们想要强调的第一个高斯代数运算是:相加独立的分布。
以下是独立高斯分布相加的公式总结:
若 X ~ N(μ₁, σ₁²), Y ~ N(μ₂, σ₂²),且 X 与 Y 独立,则:
X + Y ~ N(μ₁ + μ₂, σ₁² + σ₂²)

乘法运算:乘以常数

接下来,我们学习高斯分布的第二个代数运算:乘以一个常数。

假设我们有一个高斯分布,其均值为 μ,方差为 σ²。我们将用常数 β 乘以该分布的每一个值。也就是说,当我们从这个分布中随机抽取一个值 z 时,我们得到的新值是 β * z。
那么,新分布的参数变化如下:
- 新分布的均值等于原均值乘以常数:μ_new = β * μ
- 新分布的方差等于原方差乘以常数的平方:σ_new² = β² * σ²
这可以理解为对高斯分布进行线性变换。
以下是乘以常数的高斯分布公式:
若 X ~ N(μ, σ²),则对于常数 β,有:
βX ~ N(βμ, β²σ²)
加权组合与协方差
现在,我们处理两个分布之间存在相关性或协方差的情况。
当我们希望对两个高斯分布进行加权组合时(例如构建投资组合),首先会用各自的权重乘以它们的均值。假设权重为 w₁ 和 w₂,且 w₁ + w₂ = 1。

在协方差 Cov(X,Y) 不等于 0 的情况下,组合后新分布的方差计算如下:
σ_portfolio² = w₁² * σ₁² + w₂² * σ₂² + 2 * w₁ * w₂ * Cov(X, Y)
到目前为止,公式的前两部分与我们之前讨论的线性变换没有区别。但现在我们引入了一个新项:2 * w₁ * w₂ * Cov(X, Y)。
为了将两个高斯分布相加,我们需要知道它们之间的协方差。
如果我们很幸运,知道它们的协方差等于 0,那么整个协方差项就消失了,我们可以像使用前两种代数方法一样简单地求和。
但是,如果我们知道协方差不等于 0,那么就必须包含这个调整项。
以下是考虑协方差的加权组合公式:
若 X ~ N(μ₁, σ₁²), Y ~ N(μ₂, σ₂²),且 Cov(X, Y) 已知,则对于权重 w₁, w₂ (w₁ + w₂ = 1),组合 Z = w₁X + w₂Y 的分布为:
Z ~ N(w₁μ₁ + w₂μ₂, w₁²σ₁² + w₂²σ₂² + 2w₁w₂Cov(X,Y))

总结
本节课中我们一起学习了高斯分布的三种核心代数运算:
- 独立分布相加:新分布的均值和方差分别为原分布参数之和。
- 乘以常数:新分布的均值乘以该常数,方差乘以该常数的平方。
- 考虑协方差的加权组合:在加权组合中,方差的计算需要额外加上一个包含协方差的调整项。

掌握这些运算规则,对于理解更复杂的统计模型和商业数据分析至关重要。
065:马科维茨投资组合优化理论 🧮
在本节课中,我们将学习一个来自金融领域的非常实用的知识应用:马科维茨投资组合优化。我们将探讨如何将两种股票组合成一个最优的投资组合,并理解其背后的核心优化目标。
概述
我们将通过一个具体的例子来理解如何应用之前学到的知识。这个例子来自金融领域,被称为马科维茨投资组合优化。我们将使用两种股票来构建一个在特定意义上最优的合并投资组合。
首先,我们将解释我们试图优化的目标,然后展示如何应用公式进行计算。
投资组合回报与风险
我们关注投资组合的回报。我们用Y轴来表示股票一和股票二的某种加权组合的综合回报。
投资组合的预期回报 是它们两个预期回报的加权组合。
- 股票一有一个预期回报。
- 股票二有一个预期回报。
投资组合的预期回报公式如下:
E(Rp) = w1 * E(R1) + w2 * E(R2)
其中,w1 和 w2 是权重,并且满足 w1 + w2 = 1。
基于这两种回报的权重,我们可以在Y轴上上下移动。你可以将这两种回报视为某个范围的上限和下限。如果我100%投资于一种,我将位于一个点;如果100%投资于另一种,我将位于另一个点;如果各投资50%,我将位于中间。75/25、25/75等权重以此类推。
在这张图上,有一个特殊的点。这是我可以从短期政府债券上获得的利息,这种债券基本上没有波动性。我们称这个值为无风险回报率。为了便于练习,我们假设它等于1%。
我们的X轴代表回报的波动性。我们将计算我们两种资产组合的标准差,并将其绘制在X轴上。
可视化与优化目标
假设我们的股票一有一个预期回报和预期波动率(回报的标准差)。你可以将这个点视为股票一的标准差和其预期回报值在Y轴上的位置。
同样,这里某个点可以代表股票二的波动性(通常指股票年回报的标准差)及其在Y轴上的预期回报。

我们感兴趣的是创建这两种资产的加权组合,使得从代表其加权组合回报和回报标准差的那一点出发,连接到我们的无风险回报点的那条线,具有最高的斜率。

让我解释一下这是什么意思。可能有几种不同的方式将这些资产组合在一起,从 w1=1, w2=0 一直到 w1=0, w2=1。假设它们的相关性小于1,它们将在我们的图表上这样分布。
在加权组合中,应该存在一些点,其方差比任何一只股票单独持有时的方差都要低。因此,就这条线的斜率而言,加权组合可能更具吸引力。


这条线的斜率相对于任何其他线的斜率,当然也相对于到达这些原始点的线的斜率。

夏普比率

那么,我们优化的是什么?我们优化的是一个叫做夏普比率的东西,这在第一门课程中讨论过。


夏普比率的公式是:



Sharpe Ratio = (E(Rp) - Rf) / σp

其中:
E(Rp)是投资组合的预期回报。Rf是无风险回报率。σp是投资组合回报的标准差(波动性)。


我已经重新绘制了我们的图表以便有更多空间。我们的无风险利率是1%。我们感兴趣的是确定这两种股票的最佳加权组合,使得从无风险利率出发的这条线的斜率达到最大。
我们知道这两种股票的加权组合会产生看起来像这样的点,而我们的想法和目标是优化这条线的斜率。这条线将与曲线相切。
我们想知道的是,对于那个切点,我们想要求解出 w1 和 w2。
应用公式与求解

这个斜率的名字就是夏普比率。它等于我们的预期投资组合回报减去无风险回报,再除以我们投资组合回报的标准差。
具体形式如下:
Sharpe Ratio = [w1*E(R1) + w2*E(R2) - Rf] / sqrt(w1²*σ1² + w2²*σ2² + 2*w1*w2*Cov(1,2))
更典型的情况是,我们已知相关系数。在我提供的电子表格示例问题中,我们有一个-0.35的相关系数。因此,你可以将 ρ * σ1 * σ2 代入协方差公式。
我们想要做的是找到 w1 和 w2 的值。每个值必须大于或等于0,且小于或等于1,并且 w1 + w2 需要等于1。
使用求解器

这是一个非常适合使用 Microsoft Excel 求解器 来解决的问题。

我们将其设置为在改变其中一个权重(另一个权重可以设置为 1 - w1)的情况下,找到这个夏普比率值的最大值。

我们将权重约束在0到1之间,并且总和为1。


然后,Microsoft 求解器将直接为我们输出答案。

如果我们回到图表,会发现正确答案是权重约为0.525(股票一)和0.475(股票二)。这将为我们带来投资组合标准差为5.05%,而我们投资组合的预期回报将等于10.9%,从而给出这条线的斜率为1.97。
实践与观察
我希望你尝试使用求解器来为具有不同相关性的股票寻找最优组合。或者,你也可以尝试为股票输入不同的预期回报和标准差。
你可以自己观察这些不同的因素如何相互作用。你会发现:
- 强烈的负相关性是非常理想的。
- 低相关性也几乎是同样理想的。
- 不那么理想的是高相关性。
我们在投资中一再看到,投资者确实希望最大化夏普比率,这也是他们总是在寻找与主要投资工具(如主要股票市场)相关性低的另类资产类别的原因之一。
总结

本节课中,我们一起学习了马科维茨投资组合优化理论的核心应用。我们定义了投资组合的预期回报和风险(标准差),引入了夏普比率作为衡量风险调整后收益的关键指标,并明确了通过调整资产权重来最大化夏普比率的优化目标。最后,我们介绍了如何利用 Microsoft Excel 求解器这一工具,在给定约束条件下(如权重和为1),自动计算出两种资产的最优配置权重,从而将理论应用于实践。
066:线性回归的坐标标准化 📊

在本节课中,我们将要学习一个重要的数据处理技巧:坐标标准化。我们将探讨当原始数据被转换为Z分数(即标准化值)后,线性回归中的几个核心统计量(如协方差、斜率和相关系数)会发生怎样的变化。

数据标准化概述
上一节我们介绍了数据标准化的概念。本节中,我们来看看对两组数据(X值和Y值)同时进行标准化后的效果。
我已经计算了第二组数值(我们称之为Y值)的Z分数。

你会发现,尽管X值的范围非常大(标准差为25,均值为44),而Y值的范围小得多,标准差也更小。但当它们被标准化后,X轴和Y轴的值将拥有相同的均值和标准差。这就是我们所说的“标准化”的含义。
标准化前后的关系对比
现在,我们将观察一些有序对之间的关系。我们的问题是:如果我们观察某些标准关系,如协方差、相关系数、Y对X的最佳拟合线斜率(β)和Y截距(α),它们对于原始值和标准化值来说是相同的还是不同的?如果不同,它们将如何不同以及为什么?
以下是我们要对比的几个核心统计量。
协方差对比

首先,我们来看X和Y的协方差。协方差的计算公式是:取每个单独的X_i减去所有X的均值,再取与之配对的有序对中的Y_i减去所有Y的均值,将这两个差值相乘。对n个数据点重复此操作,将所有乘积相加,然后除以n。
对于我们的原始数据集,使用此公式计算出的协方差是 67.89。

而对于我们新的标准化数据集,协方差是 0.9。



斜率(β)对比
接下来,我们看β(希腊字母beta)。它代表最佳拟合线的斜率。你可以想象我们的散点图,直线的斜率Δy/Δx等于β。我们的最佳拟合模型可以表示为:对于每个Y_i,我们估计 Y_i = β * X_i + α。这是我们希望误差平方和最小的公式。
对于原始值,β等于 0.1。

而对于标准化值,β等于 0.9。


截距(α)对比
我们知道,对于标准化值,α必须始终等于 0。原因在于,均值点(X的均值,Y的均值)总是位于我们的最佳拟合线上。对于标准化值,这个点是(0, 0),因此最佳拟合线必须经过原点(0,0)。但这在一般情况下并不成立。

事实上,我们原始数据的α值是 -0.54。

而这里,我们标准化数据的α值是 0。


相关系数(R)对比

最后,我们来看相关系数。相关系数R等于X和Y的协方差,除以X的标准差乘以Y的标准差。



我们原始数据和标准化数据的R值都是 0.9。



结论与总结
那么,我们能从这些对比中得出什么结论呢?
在数据转换为标准化值或Z分数的过程中,唯一保持不变的是相关系数R。相关系数在标准化前后是不变的。
对于任何标准化数据集:
- α(截距)恒等于0,这很简单。
- β(斜率)和协方差都等于相关系数R。
因此,标准化确实让事情变得非常简单明了。它消除了量纲的影响,使得不同数据集之间的比较和模型解释变得更加直接。

本节课中,我们一起学习了数据标准化对线性回归核心参数的影响。我们了解到,标准化后,截距变为0,而斜率和协方差都简化为相关系数,这大大简化了数据分析过程。
067:标准化简化线性回归 📊

在本节课中,我们将学习如何通过标准化数据来简化线性回归模型。我们将看到,当将数据转换为Z分数后,回归线的斜率会与相关系数相等,这使得模型的理解和计算变得更加直观。
我们看到的是一种通过试错来定义特定唯一线的过程,这条线代表了一组特定有序对(X和Y)之间的线性关系或关联。

这条线被找到,它使得误差的平方和最小化。这里的误差指的是y的真实值与所谓的y的线性估计值之间的差异。
最佳拟合线与回归模型
对于一组有序对,最佳拟合线为y的值提供了一个模型。
回归线为我们提供了从X中可以获得的最佳y线性模型。其意义在于,由该线生成的y估计值中所有残差或误差的总和被最小化了。
因此,我们的目标是最小化误差平方和。
误差被定义为第i个y的真实值(y_i)减去我们对第i个y的线性估计值(ŷ_i)。我们使用一个小帽子(^)来表示y的模型估计值。
所以,我们的目标是找到最小化以下值的直线:
ŷ_i = β * x_i + α
其中,β是直线的斜率,α是y轴截距,即当x等于0时的y值。
代入后,我们可以说我们试图最小化的值是:
Σ (y_i - ŷ_i)²
残差的标准差
我们同时也对一个略有不同的概念感兴趣:残差的标准差。残差即那些个体误差。
我们知道残差的标准差将是:
√[ (1/n) * Σ (e_i - μ_e)² ]
其中,e_i 是每个残差,μ_e 是所有残差的均值。
非常幸运的是,可以证明,当参数β和α被正确选择以最小化均方根误差时,残差的均值总是等于0。
这对我们意味着,均方根误差 与 误差的标准差 是同一回事,我们将其写作 σ_e。在参数模型中,我们通常假设误差也服从高斯分布或正态分布。
标准化的魔力
我们将建立一个有趣的结果:当你将有序对X和Y转换为标准化值或Z分数时,最佳拟合线的斜率β就等于相关系数r。
让我们回顾一下协方差的定义及其与相关系数的关系:
Cov(X, Y) = r * σ_x * σ_y
当然,相关系数等于:
r = Cov(X, Y) / (σ_x * σ_y)
让我们记住协方差是什么,这似乎是关键的不同项。它是:
Cov(X, Y) = (1/n) * Σ [ (x_i - μ_x) * (y_i - μ_y) ]
如果我们思考一下,我们知道对于我们的Z分数:
- x的Z分数均值 μ_{x_z} 将等于0。
- y的Z分数均值 μ_{y_z} 将等于0。
因此,仅对于我们的标准化数据,我们可以将协方差公式写为:
Cov(X_z, Y_z) = (1/n) * Σ (x_{z_i} * y_{z_i})
推导标准化后的斜率公式
我们可以使用简单的微积分来计算最佳拟合线的斜率β。我们对残差公式求一阶导数(这里我们省略了α,因为我们使用的是标准化数据):
Σ (y_{z_i} - β * x_{z_i})²
然后令一阶导数等于0,并解出β。
结果得到以下公式:
β = Σ (x_{z_i} * y_{z_i}) / Σ (x_{z_i}²)
在这个情况下,因为x的Z分数均值等于0,分母 Σ (x_{z_i}²) 就等于x的方差。而我们知道,Z分数的标准差等于1,因此方差也等于1。所以整个分母项等于1。
正如我们之前提到的,分子项 Σ (x_{z_i} * y_{z_i}) 等于协方差(对于标准化数据)。
因此,我们确立了:
β = Cov(X_z, Y_z)
并且根据相关系数公式,对于标准化数据,r = Cov(X_z, Y_z) / (σ_{x_z} * σ_{y_z}) = Cov(X_z, Y_z) / (1 * 1) = Cov(X_z, Y_z)。
所以,我们最终得到结论:对于标准化数据(Z分数),最佳拟合回归线的斜率β等于相关系数r。
总结

本节课中,我们一起学习了线性回归的核心目标——最小化误差平方和,并引入了残差标准差的概念。最重要的是,我们探讨了数据标准化的强大作用:当将X和Y转换为Z分数后,回归模型的y轴截距α变为0,而斜率β变得与相关系数r完全相等。这极大地简化了线性关系的理解和表达,揭示了相关系数在描述标准化变量间线性关系强度时的本质含义。
068:线性回归误差建模 📊

在本节课中,我们将学习如何为线性回归模型中的误差项建立数学模型。我们将基于标准化数据和正态分布的假设,推导出误差方差与相关系数之间的直接关系,并了解如何利用这种关系来构建预测的置信区间。
我们已经假设可以使用标准化数据进行工作。
现在,我们将做出一个额外的参数假设。我们假设变量 X 和 y 的形状服从高斯分布。换句话说,单个值是从正态分布的概率密度函数中抽取的。
因此,我们可以写出 x 值服从均值为 0、标准差为 1 的高斯分布。同样地,y 变量也服从均值为 0、标准差为 1 的高斯分布。

那么,这里有一个我们想知道的问题:误差的标准差是多少?我们知道误差也服从高斯分布,且误差的均值为零。但我们不知道误差本身的方差值。
我们希望将误差的方差直接与相关系数以及最佳拟合线的斜率联系起来。这正是我们接下来要做的事情。


上一节我们介绍了误差服从高斯分布的假设,本节中我们来看看如何推导误差方差。

我们知道 y 值由 x 值加上我们的模型构成。在我们的标准化模型中,截距项 α 为 0,因此模型简化为线性关联项 β 加上一个误差项。


我们可以将模型写为:
y_i = β * x_i + ε_i
我们知道最佳拟合线的残差均值为 0,其方差如下所示。我们还知道,某个值乘以 β 后,其方差将乘以 β²。
因此,对于我们的标准化问题,y 的方差为 1,x 的方差也为 1。

根据基本的高斯加法规则,y 的方差(等于1)等于 β² 乘以 x 的方差(等于1),再加上误差的方差。
我们知道,对于标准化数据,斜率 β 等于相关系数 r。因此,我们得到:
1 = r² + σ_ε²
这个等式揭示了相关系数(更精确地说是决定系数 r²)与误差方差之间的直接关系。决定系数是相关系数平方的一个别称。
由此,我们可以推导出:
r² = 1 - σ_ε²
以及
σ_ε² = 1 - r²
这意味着我们的误差标准差与相关系数之间存在直接联系。

理解误差与相关系数的关系非常重要。当我们使用线性回归模型进行预测时,预测值 ŷ_i = β * x_i 总会包含一定的误差。
我们不仅希望给出一个点预测,更希望给出一个概率分布形式的预测。这个分布的均值是我们的估计值 ŷ_i,而其标准差就等于残差的标准差 σ_ε。
这使我们能够做出非常精确的陈述。例如,我们可以说我们有 95% 的置信度认为真实值将落在某个区间内。

以下是构建置信区间的关键步骤:
- 计算点预测值
ŷ_i。 - 确定所需的置信水平(如 90%),并找到对应的 Z 分数(如 ±1.64)。
- 根据相关系数
r计算误差标准差:σ_ε = sqrt(1 - r²)。 - 置信区间为:
ŷ_i ± Z * σ_ε。
让我们考虑两个极端情况。假设变量之间完全没有关联,相关系数 r = 0。此时,最佳拟合线是水平的,y 的标准差为 1,误差的标准差也为 1。
另一个极端是完美模型,r = 1。在这种情况下,将没有任何误差,所有数据点都精确地落在回归线上。此时,置信区间将缩小为 0。
可以想象,随着相关系数 r 从 0 增加到 1,预测的误差(不确定性)会从 1 减小到 0,置信区间也随之收窄。


本节课中,我们一起学习了线性回归误差的建模过程。我们基于标准化和正态性假设,推导出误差方差 σ_ε² 与决定系数 r² 的关系公式:σ_ε² = 1 - r²。利用这个关系,我们可以将点预测扩展为概率分布预测,并构建出具有特定置信水平的预测区间,从而更全面、更可靠地评估预测结果的不确定性。
069:线性回归与互信息 📈
在本节中,我们将探讨一个虽不在课程考核范围内,但非常有趣且值得了解的主题:线性回归与互信息之间的数学联系。我们将看到,在特定的参数模型(如高斯分布)下,这两个看似不同的概念是如何通过一个简洁的公式联系起来的。
从熵到微分熵 🔄
上一节我们介绍了离散概率分布的熵公式。本节中,我们来看看连续概率分布对应的概念——微分熵。
对于像高斯分布这样的连续概率分布,其微分熵在形式上与离散熵相似,但性质略有不同。请注意,微分熵可以取负值,并且其代数运算规则也有所不同。例如,当两个分布变得完全相同时,互信息会趋近于无穷大。因此,在处理微分熵时,需要留意这些不同的特性。
互信息的基本公式 📐
互信息的基本公式定义如下:
I(Y; X) = H(Y) - H(Y|X)
其中:
H(Y)是目标变量Y(原始高斯分布)的微分熵。H(Y|X)是在已知预测变量X的条件下,Y的条件微分熵。
这个公式的直观理解是:Y 的总不确定性(H(Y)),减去知道了 X 之后 Y 剩余的不确定性(H(Y|X)),结果就是 X 为预测 Y 所提供的信息量,即互信息。
在回归的语境下,H(Y|X) 实际上就是回归误差(噪声)分布的熵。因为 Y 可以分解为信号(由 X 解释的部分)加噪声(误差),所以从总熵中减去噪声的熵,就得到了信号的熵,即互信息。
建立联系:从微分熵到相关系数 ⛓️
我承诺过会解释互信息与线性回归是如何连接的,现在我们已经接近答案了。
关键在于高斯分布微分熵的一个性质:一个高斯分布的微分熵等于一个常数加上其标准差的对数。

因此,对于我们的互信息公式 H(Y) - H(Y|X),我们可以写出:
I(Y; X) = [C + log(σ_y)] - [C + log(σ_error)]
由于我们在分析中通常使用标准化变量(均值为0,标准差为1),σ_y 就等于1。这极大地简化了我们的计算。于是公式简化为:
I(Y; X) = -log(σ_error)
我们知道,在线性回归中,皮尔逊相关系数 r 与回归误差的标准差 σ_error 存在明确的关系:
σ_error = sqrt(1 - r^2)
核心公式推导 🎯
现在,只需进行简单的代入,就能得到连接两者的核心公式。
将 σ_error = sqrt(1 - r^2) 代入 I(Y; X) = -log(σ_error),我们得到:
I(Y; X) = -log( sqrt(1 - r^2) )
或者等价地:
I(Y; X) = -1/2 * log(1 - r^2)
这个优美的公式揭示了在线性回归的框架下,当变量服从高斯分布时,衡量变量间线性相关程度的相关系数 r,与衡量变量间统计依赖性的通用指标互信息 I,是如何被精确联系起来的。r^2 越大(线性关系越强),互信息的值也就越大。
总结 📝

本节课中,我们一起学习了线性回归与信息论中互信息概念之间的深刻联系。
我们首先回顾了离散熵并引出了连续分布的微分熵。接着,我们解释了互信息在回归中的含义:即从目标变量的总熵中扣除预测后剩余误差的熵。然后,利用高斯分布微分熵的性质以及相关系数与误差标准差的关系,我们最终推导出了关键公式 I(Y; X) = -1/2 * log(1 - r^2)。

这个结论表明,在基于高斯分布的参数模型中,线性回归分析所揭示的(线性)信息,完全可以通过互信息这一更通用的信息度量来捕捉和表达。这为我们理解不同数据分析工具之间的内在统一性提供了一个精彩的视角。
070:直方图与概率分布函数描述 📊
在本节课中,我们将学习如何将一组数据转换为直方图,并进一步将其描述为近似的概率分布。我们将探讨描述概率分布的关键统计量,包括均值、方差、标准差和偏度,并了解离散分布与连续分布在这些概念上的区别。
从数据到概率分布
上一节我们介绍了概率分布的概念。本节中,我们来看看如何将实际观测数据转化为一个有用的近似概率分布。
我们从一个数据集开始。假设我们从一个在-1到1之间的均匀分布中随机抽取了100个数据点。我们的目标是将每个数据点放入预设的“箱子”中。例如,如果有一个值是-0.27,它会被放入对应的箱子;如果有一个值是0.144,它会被放入另一个箱子。通过这种方式,我们逐渐累积信息。
假设在收集了125个数据点后,数据分布如下:第一个箱子有1个值,第二个箱子有4个值,第三个箱子有58个值,第四个箱子有59个值,第五个箱子有3个值。没有数据点落在最高或最低的箱子范围之外。
我们可以用图形来表示这个分布。这个图形就是直方图。

创建概率直方图
现在我们已经创建了第一个直方图。接下来,我们将把它转换为概率分布。
首先,为每个箱子分配一个中点值。然后,将每个箱子中的原始计数值除以数据点的总数(125)。以下是计算过程:
- 第一个箱子:1 / 125 ≈ 0.008
- 第二个箱子:4 / 125 ≈ 0.032
- 第三个箱子:58 / 125 ≈ 0.464
- 第四个箱子:59 / 125 ≈ 0.472
- 第五个箱子:3 / 125 ≈ 0.024
这样,我们就得到了一个概率直方图,它是真实概率分布的一个近似。
描述概率分布

在创建了概率分布之后,我们需要用一些描述性术语来向他人传达它的特征。以下是几个关键的描述性统计量。
均值(期望值)

均值,或称期望值,是概率分布的中心趋势度量。它的计算公式是每个值乘以其概率的总和。
对于离散分布,公式为:
E[X] = μ = Σ (p_i * x_i)
其中,p_i 是每个值 x_i 的概率。

方差与标准差
方差衡量了数据分布的离散程度,即数据点偏离均值的平均平方距离。

方差的公式为:
Var(X) = σ² = Σ [ p_i * (x_i - μ)² ]

标准差是方差的平方根,它与原始数据有相同的单位,更易于解释:
σ = √Var(X)
在我们的例子中,计算出的方差约为0.0008,标准差约为0.029。
偏度
偏度描述了分布的不对称性,即分布是向左偏(负偏)还是向右偏(正偏)。

偏度的计算公式是:
Skewness = Σ [ p_i * (x_i - μ)³ ]
这被称为关于均值的三阶中心矩。方差(关于均值的平方)是二阶中心矩。如果你好奇,四阶中心矩被称为峰度,但本课程不要求掌握。
离散分布与连续分布
需要指出的是,到目前为止我们讨论的都是离散分布。
对于连续分布,我们称之为概率密度函数。其核心思想是,曲线下的总面积始终等于1。

连续分布对应的描述统计量公式使用积分而非求和:
- 均值:
μ = ∫ x * f(x) dx - 方差:
σ² = ∫ (x - μ)² * f(x) dx - 偏度:
Skewness = ∫ (x - μ)³ * f(x) dx
总结


本节课中,我们一起学习了如何将原始数据通过构建直方图转化为近似的概率分布。我们探讨了描述概率分布的三个核心统计量:均值(衡量中心位置)、方差/标准差(衡量离散程度)以及偏度(衡量不对称性)。最后,我们区分了离散概率分布与连续概率密度函数在计算这些统计量时的不同表达方式。掌握这些描述性工具,是理解和沟通数据分布特征的基础。
071:重要常见概率密度函数 📊
在本节课中,我们将学习三种重要的概率密度函数:均匀连续分布、均匀离散分布和高斯(正态)连续分布。理解这些分布的特性及其适用场景,对于在信息有限的情况下对数据进行建模至关重要。
处理数据时,一个常见的现象是许多过程都近似于某些特定的分布。在许多情况下,如果我们不知道真实的分布是什么,就应该选择某些特定的分布。这些分布是我们对未知信息最恰当的表示。这背后有充分的逻辑和数学理由:在仅已知某些约束条件的情况下,这些分布具有最大的熵或不确定性。因此,在了解更多信息之前,这些分布是表示数据的最佳选择。
均匀连续分布 📈
首先,我们来看均匀连续分布。当然,这正是我们在中心极限定理示例中使用的-1到1区间上的分布。
通常,我们将其表示为在区间 A 到 B 上的分布。其概率密度函数图像是一个矩形。为了使概率密度函数的积分为1,我们知道矩形的宽度是 b - a,因此其高度必须等于 1 / (b - a)。所以,该函数在定义域内每个点的值都是 1 / (b - a)。

以下是均匀连续分布的关键特性:


- 支撑集:定义在实数轴上的区间 [A, B]。
- 均值:计算公式为 (A + B) / 2。
- 方差:计算公式为 (B - A)² / 12。
- 偏度:关于均值的偏度为 0,这意味着它完全对称。
- 熵:其不确定性表示为 log₂(B - A)。

如果我们只知道某个变量分布在两个已知的有限点 A 和 B 之间,除此之外一无所知,那么选择均匀连续分布是合适的,因为它是该约束条件下的最大熵分布。


均匀离散分布 🎲


上一节我们介绍了连续情况,本节中我们来看看离散形式。均匀离散分布的一个例子是公平的骰子,其可能取值为1、2、3、4、5或6,但绝不会取到这些整数之间的值。

它通常表示为支撑集为 {1, 2, 3, 4, 5, 6} 的分布,但需理解这是离散的。其均值同样为 (A + B) / 2。
以下是均匀离散分布的关键特性:

- 方差:计算公式为 [(B - A + 1)² - 1] / 12。
- 标准差:是方差的平方根。
- 偏度:同样为 0,完全对称于其均值(例如3.5)。
- 熵:等于 log₂(n),其中 n 是可能结果的数量。

如果某个变量可以在已知的最小值和最大值之间取任何值,但这些值必须是离散的(即整数),那么均匀离散分布就是最大熵分布。在我们对结果选择一无所知的情况下,这是最合适的分布。
高斯(正态)连续分布 🔔
最后,不能不提我们的老朋友——高斯连续分布(正态分布)。现在让我们来讨论它。
其概率密度函数,你现在可能还记得,包含一个依赖于方差值的归一化常数。函数的公式为:

f(x) = (1 / √(2πσ²)) * e^(-(x-μ)²/(2σ²))
以下是高斯分布的关键特性:



- 支撑集:从 -∞ 到 +∞ 的整个实数轴。
- 均值:等于 μ。
- 方差:等于 σ²。
- 偏度:为 0,呈对称分布。
- 熵:等于 1/2 * log₂(2πeσ²) 或近似为 1.05 + log₂(σ)。



可以证明,对于一个方差固定的分布,如果其值域是从负无穷到正无穷,那么高斯分布就是最大熵分布。这意味着,如果我们对一个现象完全无知,只知道其方差,就应该用高斯分布来表示它。这或许为我们在噪声分布未知时持续使用高斯分布提供了一个更深刻、更令人满意的解释或理由。因为实际上,在了解更多信息之前,如果我们知道噪声的方差,高斯分布就是我们能使用的最合适的分布。
总结 📝
本节课中,我们一起学习了三种核心的概率分布。均匀连续分布适用于仅知变量上下界的场景;均匀离散分布适用于结果为离散整数的场景;而高斯分布则是在仅知方差且变量取值无界时的最大熵选择。理解这些分布及其最大熵原理,能帮助我们在商业分析中,面对信息不完全的数据时,做出更合理、更科学的建模假设。
072:多变量线性回归 📊

在本节课程中,我们将学习如何使用Excel的LINEST函数进行多变量线性回归分析。我们将以一个信用卡评分的实际业务问题为例,构建一个预测模型,以识别哪些客户更可能违约。
概述
想象我们是一家信用卡发卡公司。随着时间的推移,我们积累了客户数据,记录了哪些客户最终全额偿还了欠款(包括利息),哪些客户拖欠并最终违约。我们的目标是建立一个模型,利用客户的多个特征(如年龄、收入、债务等)来预测其未来违约的概率,从而在未来更明智地批准信用卡申请。
数据与变量说明
以下是我们在模型中可能使用的一些输入变量示例:
- 年龄:潜在客户的年龄。
- 当前工作年限:客户在当前职位的工作年数。
- 当前居住年限:客户在当前地址的居住年数。
- 收入水平:客户的收入。
- 其他债务:客户在其他信用卡和汽车贷款上的欠款等。
我们的目标变量(Y)是客户是否违约(例如,用1表示违约,0表示未违约)。
执行多变量线性回归
上一节我们介绍了回归分析的目标,本节中我们来看看如何在Excel中具体操作。核心是使用LINEST函数来找到最佳拟合线,该线能为每个输入变量分配一个系数(Beta值)。
LINEST函数的基本语法结构如下:
=LINEST(known_y‘s, [known_x‘s], [const], [stats])
known_y‘s:代表目标变量(Y)的数据列。known_x‘s:代表所有输入变量(X)的数据区域。const:逻辑值,指定是否强制截距为0。通常设为TRUE以计算常规截距(Alpha)。stats:逻辑值,指定是否返回额外的回归统计信息。设为TRUE以获取详细信息。
现在让我们尝试一下。操作步骤如下:
- 首先,选择一片足够大的空白单元格区域来输出结果。对于k个自变量,如果需要统计信息,通常需要选择一片 5行 x (k+1)列 的区域。
- 输入公式:
=LINEST(目标变量数据列, 所有自变量数据区域, TRUE, TRUE)。 - 由于是数组公式,在输入后需要按 Ctrl+Shift+Enter(Windows)或 Command+Return(Mac)组合键确认。
解读回归结果
执行回归后,Excel会输出一个结果矩阵。理解这个矩阵的布局至关重要。
下图展示了LINEST函数输出结果的典型布局和含义:

关键点解读:
- Beta系数:输出矩阵的第一行包含了每个自变量的系数(Beta),顺序与输入的自变量顺序相反。最右边的系数对应第一个自变量,最左边的系数对应最后一个自变量。倒数第二个值是截距(Alpha)。
- 统计显著性:如果某个变量的系数及其标准误差都显示为0(或极其接近0),这通常意味着该变量存在共线性问题。
- 共线性解释:共线性意味着该变量提供的预测信息与其他变量高度重复。例如,如果我们同时有“年龄(岁)”和“年龄(月)”,其中一列就是完全冗余的,会导致完全共线性。更常见的是部分共线性,例如“债务收入比”这个变量,很可能与“债务”和“收入”这两个变量高度相关。
模型简化与关键变量
在我们的示例分析中,格式化结果单元格后,可能会发现一整组Beta系数及其误差都为零。这表明这些变量因高度共线性而未对模型做出贡献,可以从模型中移除。
最终,有效的模型可能只由少数几个关键变量构成。例如,在我们假设的案例中,最重要的预测变量很可能是债务收入比。识别并关注这些关键变量,是构建简洁而强大预测模型的核心。



总结
本节课中我们一起学习了多变量线性回归的完整流程。我们了解了如何使用Excel的LINEST函数,通过选择目标变量和多个自变量区域来拟合模型。我们重点学习了如何解读输出结果,特别是理解Beta系数的反向顺序,以及如何识别因共线性而无用的变量。最终,我们明白了模型简化的意义,即找出真正驱动预测结果的关键变量。
这就是进行多变量线性回归的方法。在实际的课程项目中,你的目标变量可能不是0或1,而是一个连续数值(例如代表该客户带来的最终利润或损失),但核心的分析步骤和原理是相通的。这里使用简化示例是为了让大家能更清晰地掌握方法,并将更复杂的应用留给大家在实践中探索。
073:过拟合现象成因解析 📊

在本节课中,我们将要学习数据分析中的一个核心问题——过拟合。我们将探讨过拟合是什么,它是如何发生的,以及它为何会导致模型在新数据上表现糟糕。通过理解其背后的数学原理,我们可以更好地评估和构建模型。
什么是过拟合?🤔
数据分析中的一个主要问题是,借助计算机,我们可以非常容易地用复杂模型去拟合任何数据集。然而,当你试图将这个模型应用到新数据上时,即模型未曾训练过或设计时未考虑的数据,模型通常会完全失效,表现极差。这种现象有一个专门的名称,叫做过拟合。
在本课程最后的项目中,你将练习一些避免过拟合的技巧。但首先,我想向你展示一个完全随机数据的例子,并说明随机数据中出现看似有关联、看似可以建模的模式是多么常见。

随机数据中的虚假关联 🎲

我们这里有一组有序对,即 X 和 Y 值。每个值都是从均值为 0 的高斯分布中随机选取的。我们选取了 25 个有序对,然后计算了最佳拟合线。利用这些点和这条线,我们当然可以计算相关系数 R。
你会发现,这些相关系数的范围从小于 -0.5 的极端值,一直到 -0.63,再到大于 +0.5。这些相关性完全是由于偶然性造成的,两个底层随机变量 X 和 Y 的实际相关性为 0。
理解过拟合的视角 🔍
理解过拟合的一种方式是,当我们过于自信地认为我们的模型能够从信号和噪声的混合体中提取出信号时,过拟合就发生了。我们的模型将训练集数据中的一部分噪声也当作了信号的一部分,因此我们认为信号比实际情况更强。然后,当我们尝试在新数据上使用模型来预测新结果时,新的噪声无法告诉我们任何关于新结果的信息,导致我们的模型表现比预期差得多。
为了更好地理解这种过拟合的观点,我们首先考虑一个没有过拟合的简单线性回归模型的理想情况。
理想线性回归模型 📈
假设一个不变或平稳的过程,输入实数值(我们称之为 x_i),输出实数值 y_i。我们假设这个过程是参数化的,意味着 x 值和误差都来自独立的高斯分布,均值为 0,标准差为 1。这意味着我们 Y 输出的标准差(信号和噪声的组合)也等于 1。这是一个简化模型,但它给出了基本概念。
对于一个特定的 x_i,我们将其乘以系数 β。因此,我们的 y 值将是 β 乘以 x_i,再加上一个常数 α。在我们的简化模型中,由于均值为 0,α 将等于 0。最后,我们的 y 值中存在不确定性。这种不确定性表现为一个标准差为 σ_e(随机误差分量的标准差)的高斯分布。
所以,如果我们将模型视为生成 y 的估计值,记为 ŷ_i = β * x_i。y 的真实值是不同的,它是从一个均值为 β*x_i、方差为随机误差方差的高斯分布中抽取的。
通过本课程其他部分的计算,我们知道随机误差的标准差等于 √(1 - R²)。由于我们的标准化处理,我们知道 R 等于斜率 β,这也等于我们信号的标准差。所以,我们是在将信号(β * x_i)与噪声结合,以得到 y_i 的真实值。
想象一下,这条线上有一个点,我们有一个误差的高斯分布,y 的真实值可能落在这个分布内的任何地方,但很可能靠近信号值。误差给了我们一个额外的分量。y_i 与 ŷ_i 之间的差值被称为残差。如果我们取残差的标准差,那就是我们所说的误差标准差。
在本课程的大部分内容中,我们做了一个简化假设:在一组观测到的有序对上得到的最佳拟合线准确定义了固定参数 α、β 和误差标准差。现实生活可能更具挑战性。即使我们足够幸运地建模了一个真正平稳的过程,我们仍然不知道 α、β 和随机误差标准差的真实值。我们从某个底层过程中抽取的有序对样本中推导出的是估计值。因此,我们有 β 的估计值、α 的估计值和误差的估计值。
过拟合的数学影响 ➗
刚才观看动画的整个目的是让你相信,如果没有进一步的测试,从中等规模有序对集合生成的线性模型参数,不能可靠地用于预测未来未知的结果。
现在存在数学方法来计算我们每个估计值(β帽、α帽、σ_e帽)的误差概率分布。y_i 的真实误差不是 σ_e帽,而是这三种误差的某种组合。然而,这些计算超出了本课程的范围,详细解释这些调整的文献已在参考书目中列出。
我们提出这个问题是为了证明,过拟合不仅是将噪声当作信号来建模,而且过拟合的效果是,当我们在新数据上使用模型时,会增加残差,以至于我们的误差不仅比预期大,而且如果我们正确知道 β,误差实际上比真实情况下的噪声还要大。换句话说,过拟合使我们的误差变得更糟。
让我解释一下我的意思。我们假设一个平稳过程,其真实相关性 R = 0.5。这意味着我们真实的随机误差标准差将是 √(1 - R²) = √(1 - 0.25) = 0.866。
然而,假设我们使用一些有序对集合开发了这个模型,我们的最佳拟合线斜率 β帽 = 0.85。我们会认为相关性等于 0.85,因此我们会认为真实误差等于 √(1 - 0.85²) ≈ 0.527。比较这两个数字,你会发现真实误差比我们从过拟合模型中预期的误差大 64%(因为 0.866 / 0.527 ≈ 1.64)。
但是,还有一个额外的误差。假设我们有一个点 (2, 1.2) 和另一个点 (2, 1.7)。额外的误差等于 0.7。实际上,额外的误差将取决于 x_i 的值,并且将等于 x_i 乘以我们相信的斜率与真实斜率(或真实相关性)之间的差值。
既然我们知道 x 值也是从均值为 0、标准差为 1 的高斯分布中抽取的,我们可以将所有可能 x 值的这种额外误差项的影响加进来。这意味着如果我们不知道 x 的值,这个误差会有一个期望值。这个误差的期望值将等于我们的估计值与真实值之间的差值。
如果我们将这个误差加到之前的误差上并取其平方根,我们将得到 √(0.866² + 0.35²) ≈ 0.93。所以,我们新的总误差比预期差了约 77%,而不是 64%。这就是我们为过拟合付出的代价。
如何识别过拟合?🚨
通常,如果你在适量数据上开发出一个具有高相关性的模型,那么真实相关性低于你估计值的可能性,远高于高于你估计值的可能性。在第二组数据上出现低得多的相关性,是过拟合的明确迹象。新数据集上的新相关性估计值越接近你之前的相关性估计值,就越有可能这两个估计值都相对接近信号的真实值。

总结 📝
本节课中,我们一起学习了过拟合现象。我们了解到,过拟合发生在模型过于复杂,以至于拟合了训练数据中的噪声时。这会导致模型在新数据上表现不佳,因为模型错误地将噪声当作了有意义的信号。我们通过数学公式(如 ŷ_i = β * x_i + ε,其中 ε ~ N(0, σ_e²))和概念(如残差、估计误差)深入探讨了其成因。关键在于要意识到,从有限数据中得出的高相关性可能具有欺骗性,必须通过在新数据上验证模型来避免过拟合。
074:最终项目说明(上)📊

在本节课中,我们将学习最终课程项目的第一部分。这部分要求你进行二元分类,结合多种不同的输入变量,以构建一个最佳的预测模型,用于预测信用卡申请人的违约情况。
项目概述与目标 🎯
我们有一组希望从银行获得信用卡的申请人。你的模型将使用历史数据,这些数据来自过去获得信用卡的人群,其中一部分人违约了,另一部分人则没有。你将利用这些历史数据,基于与训练集和测试集(约400人)中相同的输入变量,尝试预测未来新申请人的违约情况。
模型优化与评估方法 ⚙️

上一节我们介绍了项目的目标,本节中我们来看看如何优化和评估你的模型。
你的任务是优化模型,以最大化曲线下面积(Area Under the Curve, AUC)。你将通过组合不同的输入变量来完成这项优化。
为了方便大家,我提供了一个电子表格。只要你的输入变量的加权组合结果落在 3.5 到 -3.5 之间,你就可以直接将组合后的变量粘贴到表格的某一列中。表格会立即计算出曲线下面积,而无需为每个单独的阈值进行单独计算。这样做是为了节省你的大量时间。
数据标准化处理说明 📝
但有一点需要注意。回顾我们之前标准化身高和体重的例子,你会看到这里的最大值是 4.05,最小值是 -2.38。在我提供的便利表格中,数值范围需要控制在 3.5 到 -3.5 之间。不过,真正重要的是数据的排序顺序。
因此,有几种不同的方法可以转换这组特定数据以适应要求。
以下是几种可行的转换方法:
- 方法一:平移。你可以从每个值中减去一个常数(例如 0.75)。这样,最大值就会低于 3.5,而最小值则会高于 -3.5。
- 方法二:缩放。同样可以接受的方法是除以一个常数。例如,你可以将所有值除以 1.5。

具体细节留给你自己处理。你采用哪种方法真的不重要。这个工具只是为了方便你。当然,如果你愿意,也可以按照传统方式,逐个阈值地计算曲线下面积,但这完全没有必要。
总结 ✨
本节课中我们一起学习了最终项目上半部分的核心内容。我们明确了项目目标是构建一个预测信用卡违约的二元分类模型,并了解了通过组合输入变量来优化AUC评分的方法。同时,我们介绍了如何使用提供的便利工具进行快速评估,以及如何对模型输出值进行简单的标准化处理以符合工具要求。下一部分我们将继续探讨项目的其他细节。
075:最终项目说明(下)📊


在本节课中,我们将继续深入探讨最终项目的具体执行步骤。我们将学习如何构建和优化二元分类模型,评估其性能,并将其与外部数据源进行比较。随后,我们将转向多元线性回归模型,学习如何预测连续变量并量化预测的不确定性。
模型输入与组合实验 🔬
上一节我们介绍了项目的背景,本节中我们来看看如何具体构建你的预测模型。
你的模型有六个可能的输入变量,包括:申请人的年龄、在当前雇主的工作年限、在当前地址的居住年限、当前信用卡债务、当前汽车债务以及当前收入。
以下是构建模型的核心步骤:
- 个体测试:首先,你可以尝试单独使用每一个输入变量(A, B, C, D, E, F)来构建模型,并计算其ROC曲线下面积。如果某个变量的AUC值非常低(接近0.5),则其判别能力很弱,可以考虑直接舍弃。
- 组合测试:对于表现出一定判别能力的变量,可以尝试将它们组合起来。例如,尝试 A+B, A+C, A+D 等两两组合,或 A+B+C 等三变量组合。注意:在组合标准化后的数值时,你可能需要对求和结果进行平均(例如
(A+B)/2或(A+B+C)/3),以确保结果值落在-3.5到3.5的标准化范围内。 - 尝试比率与加权:你还可以尝试变量间的比率(如债务收入比),或者创建加权组合(例如
0.7*A + 0.3*B)。这个探索过程是开放的,鼓励你通过手动复制粘贴、尝试不同组合来获得对二元分类模型构建的直观感受。
模型验证与避免过拟合 ⚖️
当你获得一个在训练集上表现不错的模型后,关键的一步是验证其泛化能力。
你需要将这个模型(不做任何改动)应用到接下来的200个个体(即测试集)上。如果模型在测试集上的AUC值显著下降,则很可能意味着模型在初始训练集上过拟合了。此时,你需要返回调整模型,目标是缩小模型在训练集和测试集上表现的差距。
一个稳健的模型,其性能在从训练集转移到测试集时不应出现戏剧性的下降。
成本最小化与阈值选择 💰
在获得一个稳健的模型后,下一步是找到使总成本最小化的分类阈值。
总成本的计算公式为:
总成本 = 假阴性的数量 × 每个假阴性的成本 + 假阳性的数量 × 每个假阳性的成本
项目中会提供具体的成本数值。你的任务是找到使这个总成本最小的阈值,并报告在该阈值下的平均每事件成本。
接着,你需要使用这个确定的最优阈值(例如2.6或1.4),再次在测试集上运行模型(不重新调整阈值)。这模拟了真实预测场景:你使用基于历史数据确定的规则来预测未来未知的数据。然后,计算在此阈值下的实际成本。
如果测试集上的成本远高于训练集,这再次表明模型可能过拟合,你需要返回简化模型。有时,问题在AUC阶段并不明显,而在成本最小化阶段才会真正暴露出来。
模型评估指标与基准比较 📈
以上构成了项目第一部分的内容。接下来,你需要评估模型在最优阈值下的各项指标。
你需要关注的指标包括:
- 真正率和假正率
- 阳性预测值和阴性预测值
- 相对于基准率模型的信息增益
这里的“基准率”模型是指初始状态:即向所有人发放信用卡。你可以将其视为一个将所有人都分类为“非违约者”的模型,这会产生大量的假阴性(即那些实际违约的人)。你可以计算使用这种“无模型”策略的每事件成本。
因此,我们需要比较你的模型相对于基准率模型所带来的信息增益和成本节约。
引入外部数据源:Aertopia 评分 🆚
为了使项目更有趣,我们将引入一个外部数据源:Aertopia。这是一家预测分析公司,提供据说非常准确的信用评分,其AUC值大约在0.84到0.85之间。这些评分售价昂贵,你的老板想知道银行是否应该购买。
你的任务是:
- 使用在测试集上计算的Aertopia评分样本,建立一个简单模型(仅使用评分排名),并计算其最优阈值和最小成本。
- 计算Aertopia评分模型的各项评估指标(阳性预测值、阴性预测值、信息增益)。
这个问题的有趣之处在于,你可以计算出银行愿意为Aertopia评分支付多少钱。这分为两种情况:
- 如果你的模型不存在,那么Aertopia的替代对象是基准率模型。
- 如果银行已经拥有了你的模型(以及所需的六个输入变量),那么Aertopia的替代对象就是你的模型。
这引出了一个重要观点:在进行数据分析时,我们往往需要明确,当前的改进是相对于现有知识状态而言的。Aertopia可能希望为“相对于基准率的所有不确定性降低”邀功,但实际上,它只应为你所构建的模型之外的那部分改进获得报酬。
项目第二部分:多元线性回归预测 📉
我们最终项目的第二部分将基于多元线性回归,要求你创建一个用于预测连续变量的回归模型。
我们将研究信用卡行业一个有趣的现象:有些客户虽然最终可能违约,但在违约前通过支付高额利息和滞纳金,在一段时间内对银行而言可能是净盈利的。当然,反之亦然:那些按时还款、余额很低的客户,银行几乎赚不到利息。
我们将关注前一种情况:即可能违约的盈利客户。我们将利用过去三年内那400个客户的记录,但这次的目标变量不再是“是否违约”,而是每个客户为银行带来的实际净盈利或净损失。
你会发现,预测客户盈利性所需的模型与预测违约的模型截然不同。这个模型当然不会完美,因此,你的最终输出形式应该是:对于给定的输入,预测该客户对银行的现值为 X美元,并在90%置信区间下给出误差范围(± Y美元)。
这种结构将我们课程中的许多重要主题联系在一起:在存在不确定性的情况下做出决策的必要性,以及数据分析师和数据科学家在向决策者提出建议时,有责任量化这种不确定性。
本节课中我们一起学习了最终项目的完整执行框架。我们从二元分类模型的构建、验证、成本优化和评估学起,并探讨了如何与外部商业解决方案进行对比。接着,我们转向了多元线性回归,学习如何预测盈利性并严谨地报告预测的不确定性。通过这个项目,你将综合运用课程中学到的核心分析技术来解决实际的商业问题。
076:关于此专业课程 🚀

在本节课中,我们将要学习商业数据分析领域的核心价值、所需技能以及本专业课程的设计目标。我们将了解大数据如何改变商业世界,以及为什么掌握完整的数据问题生命周期至关重要。
欢迎来到激动人心的商业数据分析领域。我在此行业工作了20年,从未感到厌倦。你也不会感到厌倦。随着全球大数据分析文化的真正潜力得以实现,未来20年将更加令人兴奋。
我是一名研究大脑大数据的神经科学家。我现在处理各种数据集,并将我们在大脑研究中发现的统计技术和问题解决技术应用于商业领域。这对我来说非常有趣,因为事实证明,由于大数据生态系统,我们在科学领域面临的许多分析挑战,现在也正是商业领域面临的分析挑战。
我们在科学领域发表论文所使用的技能,与向高管汇报所使用的技能是相同的。这一切都关乎批判性思维、数据整理和沟通。
我曾作为一名发明家和企业家,创造了新的数据分析技术。我也曾作为风险投资家,帮助他人实现他们在商业分析领域的梦想。在过去的六年里,我一直在杜克大学全球知名的工程管理硕士项目中担任教师。
我们的重点是实践性:如何帮助你利用数据创造积极的变化。
商业世界中的“大数据”只是一个简称,它指的是我们过去所有需要记录的东西(如产品发票、医生处方)现在都电子化并存储在计算机中。这意味着它们可以被搜索、探索、分析和利用。电子数据的存储成本已变得非常低,以至于丢弃数据并不能节省任何成本。
这些数据中的大部分最终可能不会被证明有用,但聪明的人们将在未来20年里不断寻找新的方法来利用其中的一部分,以创造具有经济价值的产品和服务,或者为他们已经销售的产品和服务提取暂时的或持久的信息优势,即一个有意义的竞争优势。
任何处于竞争市场中的营利性公司,如果不将商业数据分析的最佳实践融入其运营中,将无法在未来五年内保持盈利甚至生存。
要高效利用所有这些大数据,需要理解数据问题的完整生命周期。这个生命周期包括收集数据、清理数据、分析数据,以及向人们传达其含义。
世界不仅需要能够驾驭整个周期的人,还需要能够整合并翻译所有参与人员(从程序员到统计学家,再到沟通专家和业务领域专家)语言的人。这类人被大众媒体称为“独角兽”,信不信由你,因为这似乎很难想象一个人能掌握所有这些技能。
我们在这里要告诉你,所有这些技能都可以被一个人掌握。本专业课程旨在帮助你迈出第一步,成为你自己的大数据“独角兽”。
当你完成顶点项目时,你将掌握基本的商业概念和问题解决技能,以帮助你在大数据生态系统中游刃有余。同时,你也将掌握商业分析最重要的工具,包括在Excel中进行数据建模、使用Tableau理解和沟通数据,以及使用SQL组装数据。
你们中的一些人可能已经了解其中部分内容,但我们感兴趣的是弥合差距,帮助你们都成为“翻译者”。我们希望帮助没有技术背景的商业人士熟悉数据,也希望帮助有技术背景的人学会提出最佳类型的商业问题。我们都相信,无论你的技术背景如何,大数据分析都是你能从事的最有回报的领域之一。最激动人心的发展还在未来。
感谢你与我们一同踏上这段旅程。

本节课中,我们一起学习了商业数据分析的重要性及其带来的机遇。我们了解到,大数据本质上是商业活动的全面数字化,这要求从业者掌握从数据收集、清理、分析到沟通的完整技能链。本课程的目标是帮助你整合这些技能,成为能够连接技术与商业的“翻译者”或“独角兽”,为在数据驱动的未来取得成功奠定基础。
077:欢迎来到课程 📊

在本课程中,我们将学习如何利用数据可视化来加速商业洞察的生成,并有效地进行沟通。我们将使用 Tableau 软件,但重点不仅是掌握工具,更是理解如何在整个数据分析项目生命周期中,高效地运用可视化来驱动商业决策。
课程概述
在专项课程的第一门课《数据驱动公司的商业指标》中,你学习了大数据生态系统以及哪些指标对创造和评估商业价值最重要。
在第二门课《精通 Excel 数据分析》中,你学习了如何使用 Excel 为商业数据建模,以进行预测、评估不确定性和创造可执行的洞察。
在本课程中,我们将利用可视化的力量,加速你生成商业洞察的速度,并有效地进行沟通。
人类大脑与视觉模式
人类大脑是卓越的视觉模式检测器。设计出能在国际象棋上超越人类的计算机之所以花费了很长时间,原因之一就是我们无法让计算机像加里·卡斯帕罗夫(世界著名的国际象棋冠军)那样识别模式。
大数据分析的一个新趋势正试图利用这一点。其理念是:如果我们能让人们更容易地看到数据,他们自然会看到数据中的重要模式,并且速度远快于运行统计分析,尤其是在我们一开始并不知道该运行何种统计的情况下——这在处理现实世界中庞大而杂乱的数据时很常见。
如果你认同这个理念,那么一个自然的延伸就是:我们应该让尽可能多的人看到公司的数据,因为拥有专业知识的眼睛越多,我们可能发现的模式就越多。这就是公司仪表板变得如此流行的原因,它们旨在让公司上下的人都能寻找模式。
从模式到故事
商业世界还以另一种方式利用了人类大脑对模式的倾向性,即大脑会自然地将模式转化为故事或叙述。叙事故事能非常高效地传递复杂信息的含义,比罗列事实要快得多、完整得多。认识到这一点后,商业界对使用可视化和叙述来传达复杂数据的可执行意义感到非常兴奋。
本课程将帮助你投身于商业数据分析的这些新趋势。在接下来的几周里,你将学习如何利用可视化来:
- 快速锁定哪些因素对解释你的数据和影响你的商业指标最为重要。
- 将你的分析串联成一个故事,从而推动商业流程的变革。
课程目标与方法
我将教你如何使用可视化软件 Tableau,但我的目标不仅仅是让你成为 Tableau 专家。我希望帮助你成为使用 Tableau 来最大化商业数据分析项目效率和效果的专家。这听起来可能有些细微差别,但这一点很重要。
本课程可能与你见过的其他数据可视化或 Tableau 课程略有不同,因为本课程将根据数据分析项目的生命周期来组织,而不仅仅是根据 Tableau 的功能。我们将学习何时以及如何使用 Tableau 来实现数据项目生命周期的特定步骤,并学习如何利用 Tableau 提供的功能来制作引人注目的演示文稿,用数据来建议商业流程的变更。
可视化的定位与规划
尽管可视化很重要,但你会发现,在数据分析项目中,可视化既不应是第一步,也不应是最后一步。人类大脑非常善于发现模式,但也非常善于编造模式,并看到它想看到的,而不是实际存在的东西。
因此,尤其是在分析真正的大数据时,你甚至需要为分析项目中的可视化部分制定计划。而组织该计划的最佳方式,是使用经过深思熟虑的问题和假设作为你的路标。
此外,一旦你完成了所有可视化和模型,并认为自己理解了数据的含义,你仍然需要做一些工作,才能将你的分析转化为他人能理解的故事,并说服人们遵循你基于分析结论提出的建议。
课程学习成果
综上所述,我的目标是,在本课程结束时,你将能够:
- 知道如何提出正确的问题,以确保分析项目成功,并利用问题来设计和实施逻辑清晰、结构化的分析计划。
- 在掌握这些框架后,你将在 Tableau 中创建商业分析中最重要的图表,转换数据并制作仪表板,以及用数据讲故事。
- 掌握数据故事后,你将学习如何设计有效的幻灯片演示文稿来展示你的数据故事,以及如何进行引人入胜的商业演示。
你将成为一个 Tableau 高级用户。但更重要的是,你将成为一个数据分析流程专家,准备好应对任何商业分析问题。这听起来内容很多,但我知道你能胜任。


本节课中,我们一起学习了数据可视化在商业分析中的核心价值与定位。我们了解到可视化不仅是工具,更是加速洞察和有效沟通的关键。本课程将引导你从提出正确问题开始,通过 Tableau 实践,最终学会如何将分析结果转化为驱动商业变革的、有说服力的数据故事。
078:成为数据分析师的十大技巧 🧠

在本节课中,我们将学习如何利用数据改进业务流程,并掌握成为一名能持续从数据中创造价值的分析师所需的十大核心技巧。这些技巧涵盖了从思维方式到实践协作的各个方面,是数据分析师职业生涯的基石。
概述

数据分析领域充满变化与挑战。要在此领域脱颖而出,不仅需要技术技能,更需要正确的思维方式和协作能力。以下十大技巧将帮助你构建坚实的数据分析基础。
十大核心技巧
上一节我们介绍了课程的整体目标,本节中我们将逐一探讨成为高效数据分析师的十个关键技巧。
以下是十大技巧的详细列表:
-
培养好奇心,勇于提问,拥抱未知
商业数据分析领域在不断变化和发展。这意味着要保持竞争力,你的技能组合也需要是动态的。因此,在这个领域最成功的人是那些喜欢学习、有动力尝试新事物并能轻松适应新环境的人。脱颖而出的最佳方式是保持好奇心,并坚定不移地深入理解问题、提出创造性的解决方案。 -
将一切视为因变量或自变量
数据分析师最基本的工作是将遇到的每个商业问题转化为可测试的数字。为了分析这些数字,你需要知道哪些将被视为因变量,哪些将被视为自变量。- 因变量:是你最感兴趣、最想理解的那个测量指标。在分析中,你检查它,看其值是否依赖于或随其他因素而变化。
- 自变量:是那些可能影响因变量的其他因素。
例如,问题“早餐吃冰淇淋的量是否影响我当天的幸福感?”中:
因变量 = 当天的幸福感自变量 = 早餐吃冰淇淋的量
在商业场景中,例如尼尔森公司收集消费者购买数据。你可以问:“人们购买有机肉类的数量是否与其受教育年限有关?”
因变量 = 购买有机肉类的数量自变量 = 受教育年限
将问题转化为可分析的数字在许多情况下可能感觉不自然,因此现在就开始练习观察身边的关系。每当你看到一个关系,就问自己:如果我想更多地了解这个关系,什么是因变量,什么是自变量?
-
探索连续变量与离散变量的优缺点
- 连续变量:是在最小值和最大值之间可以取无限多个值的测量值,就像用尺子测量长度一样。
- 离散变量:是只能取一组特定值的测量值,例如记录客户属于民主党、共和党还是无党派。
例如,关于网站转化率的问题:
- 你可以将转化率表示为连续变量(百分比),在1%到100%之间有无限种可能。
- 或者,你可以将转化率表示为离散变量,只有高、中、低三个可能值。
将变量视为连续还是离散,对你将使用的统计模型、可用的策略以及可能获取的信息类型都有很大影响。离散变量通常更易于分析和理解,但往往不如连续变量精确,如果设计不当,可能会隐藏重要模式。连续变量则可能更难直观解释,但能提供更详细的关系信息。在本课程后期开始制作可视化图表时,你将需要决定是将变量设为离散还是连续。离散变量倾向于用条形图显示,连续变量则倾向于用折线图显示。现在开始注意你在报纸、广告中看到的图表,或听到的引用数据试图说服你的故事。注意哪些图表或数据故事你觉得最有说服力,这将帮助你建立直觉,了解在商业环境中进行说服性论证时,使用哪种变量和图表最有效。
-
确保始终倾听与贡献
数据分析项目几乎总是协作进行的。如果你的团队不能一起工作,项目就不会成功。如果你无法沟通信息,请优先成为一个优秀的倾听者,以便能够吸收和内化他人所说的话。但同时,也要优先成为所有项目相关对话的积极参与者。公司雇用你是看重你的专业知识,你需要好好利用它,尤其是在公司对数据洞察的开放程度存在很大差异的情况下。这一点很重要,因为有时你的数据分析会提出与他人直觉不一致的前进路径。因此,在前进过程中,请专注于在你的数据分析项目中成为一个既协作又投入的参与者。 -
训练你的怀疑精神
根据经验,每当你在数据中看到一个非常戏剧性或令人惊讶的效果,而你的团队或公司中没有人预料到时,十有八九(甚至百分之九十九)是由于簿记或编码错误造成的。你的代码中可能有错误,电子表格中有错位的列,或者数据集中某处有错误的标签。同样,每当有人极其自信地告诉你某件事时,请降低你的期望。实际情况可能比他们所说的更复杂和混乱。 -
因此,你需要追寻细节
现实生活的情况是混乱的。你通常需要追踪混乱的细节,才能到达一个制高点,最终理解正在发生什么。不要满足于数据的表面价值。要对你的数据真正看起来是什么样子、真正意味着什么感到好奇。 -
珍视精确性
精确性能让你比模糊性更快地取得进展并排除低效的方向。在这样一个充满未知的动态领域中,你通常无法做出精确的预测、假设或目标。但我向你保证,一旦你做到了,事情就会变得更容易。我并不是建议你应该教条地要求精确,而是建议你应该珍视它。需要警告的是,我刚才说的可能有点争议。有些人可能(我认为是正确的)认为精确性会扼杀创造力和创新。但我的经验告诉我恰恰相反:精确性能让最具创造性和创新性的想法变为现实。 -
数据分析中的最佳实践不一定是数据分析中最常见的实践
了解这两者对你都很重要,这样你才能在特定情况下选择哪种实践最可能成功。 -
考虑队友和利益相关者的期望
正如我之前所说,你几乎总是在团队和商业数据项目中工作。无论你的想法有多好,或者你的数据分析有多酷,如果你的发现与他们的预期相反,很可能不会得到很好的接受,你所有的辛勤工作都会戛然而止。

- 理解他人的视角
尽管在进入数据驱动领域时你可能不这么认为,但让你成功的关键技能之一是理解他人视角的能力。换句话说,就是设身处地为他人着想的能力。你需要知道你的合作伙伴和利益相关者的想法和感受,才能使你的解决方案或建议获得成功。你越善于预测他们的想法和感受,你在项目中的效率就越高。因此,请优先成为设身处地为他人着想的专家。

总结

本节课中,我们一起学习了成为高效数据分析师的十大核心技巧。从培养好奇心和变量思维,到理解数据类型、注重团队协作、保持怀疑精神、追寻细节、珍视精确性,再到认识最佳实践与常见实践的区别、管理期望以及最重要的——理解他人视角。这些概念将在课程中反复出现,请将它们记在脑海中,因为你一定会再次遇到它们。掌握这些技巧,将为你在商业数据分析领域的成功奠定坚实基础。
079:提出正确的问题 📊

在本节课中,我们将探讨在数据分析项目中,如何通过提出一系列逻辑连贯的问题来确保项目成功。我们将了解沟通技能的重要性,并学习如何构建问题框架以全面覆盖项目背景和数据本身。
上一节我们介绍了数据分析中沟通的重要性,本节中我们来看看如何通过提问来构建坚实的项目基础。
我们将数据可视化放在课程标题的第一位,数据沟通放在第二位,因为在数据分析项目中,你通常是先进行分析,再进行沟通。但我们的标题遗漏了一个关键步骤:在你接触数据之前就已经发生的沟通。
学术研究者和Terradata大学网络进行了一项研究,以确定商业智能和分析的现状。他们要求超过400名来自技术公司的招聘人员回应以下提示:
当我为商业智能或商业分析师职位招聘时,学生具备以下课程知识很重要。
然后,招聘人员需要对一系列可能的回答进行排序。
这项调查中,公司给出的首要答案是沟通技巧,信不信由你。沟通技巧之后是SQL和查询技能,然后是基础分析。
因此,根据这些数据,对于获得商业分析工作而言,沟通技巧甚至比技术或定量技能更重要。
另一项证明沟通对商业分析师至关重要的研究来自数据分析公司Gartner。他们进行了一项研究,以确定大数据项目失败的原因。他们想知道,有多少百分比的大数据项目失败是由于组织问题(包括沟通),以及有多少百分比是由于技术问题。
在我右侧的图表中,最边缘的柱状图(饼图100%为蓝色)显示了那些回应称其数据分析项目失败的原因100% 与组织问题相关的公司百分比。旁边的柱状图(饼图75%为蓝色)显示了那些回应称其项目失败的原因大部分是组织问题的公司百分比。再旁边的柱状图显示了那些回应称其项目失败的原因一半或部分是组织问题的公司百分比。而最另一端的柱状图则显示了那些回应称其项目失败的原因大部分是由于技术问题的公司百分比。你会注意到那个柱状图只有1%。
所以,正如你所见,99% 的公司表示,其数据分析项目失败的原因中,至少有一半是由于糟糕的组织技能,而非技术技能。这难道不令人惊讶吗?
当然,最重要的组织技能之一就是沟通能力——既包括传达你所进行分析价值的能力,也包括与那些将受项目影响的人交谈和理解他们的能力。那些受项目影响的人被称为你的利益相关者。
数据解释从根本上受到其背景的影响。背景的一部分由你的利益相关者驱动,但同样有影响力的另一部分背景则由作为分析师的你驱动——你的假设、你的假设以及你已经知道的知识。
一个成功的分析师需要学会如何预见由利益相关者创造的背景以及由你(你自己的知识和作为分析师的偏见)创造的背景中可能出现的问题。
在本模块中,我想向你展示,确保你的数据项目背景为你服务而非与你作对的一种方法是:首先针对项目,其次针对数据,提出并回答一系列经过逻辑思考和相互关联的问题。
有些人称这些相互关联的问题为一个框架。其他人可能称之为正确的问题。在商业分析中,关于提出正确问题有很多神秘色彩。这种神秘感让人觉得,一个正确的问题会突然让一个完美的答案从天而降,落到你脚下。这听起来很美好,确实如此。但现实生活和真实数据远比这复杂。
首先,在你真正得到答案之前,你永远不会知道一个问题是否是正确的问题。其次,很少有一个问题能回答你整个商业问题。
此外,正确的问题可以有很多种形式。有时,正确的问题是能解决你商业问题的那一个;但其他时候,正确的问题是能防止你误解数据,或防止你推荐一个利益相关者根本不可能采纳的业务流程变更的那一个。
因此,我认为谈论“提出正确的问题”是具有误导性的,因为存在很多正确的问题。所以,与其担心提出正确的问题,我希望你专注于提出大量问题。始终保持非常、非常的好奇心。对你遇到的每一个商业情境的方方面面,都要有无尽的求知欲。要像海绵一样,在项目允许的时间内,尽可能多地吸收信息。
你的工作是成为一名侦探,找出所有可能解决商业问题、影响数据解读或影响最终建议的因素。确保你最终能涵盖正确问题的最佳方法,就是提出并回答你能想到的尽可能多的问题。
在本模块中,我们将介绍一些在你接触任何数据之前就应该确保提出的关键问题。我们还将介绍组织问题的方法,以便你能尽可能高效地驾驭数据分析项目的问题空间。
我的目标是,在本模块结束时,你将充满信心,能够组织一套精心选择的问题集,在很短的时间内覆盖所有你需要的内容。
上一节我们讨论了提问的重要性,以下是开始提问前需要明确的核心步骤列表:
- 明确利益相关者:识别所有将受项目影响或能影响项目的人。
- 定义商业目标:清晰阐述项目旨在解决的具体商业问题或达成的目标。
- 审视自身偏见:作为分析师,主动识别并记录自己的假设和可能存在的认知偏差。
- 构建问题框架:围绕项目和待分析的数据,系统地列出相互关联的问题。
那么,你准备好开始提问了吗?


本节课中我们一起学习了:在数据分析中,沟通技能是项目成功的关键,甚至比技术技能更重要。为了避免项目因组织问题(如沟通不畅、误解背景)而失败,分析师必须在接触数据之前就积极提问。我们不应追求单一的“正确问题”,而应培养好奇心,提出大量问题,构建一个逻辑连贯的问题框架,以全面覆盖商业背景、利益相关者需求、自身偏见以及数据本身,从而为分析奠定坚实的基础。
080:摇滚项目 🪨


在本节课中,我们将通过一个生动的比喻——“摇滚项目”的故事,来探讨商业分析项目中一个至关重要的陷阱:需求不明确。这个故事将揭示,如果分析师在开始分析前未能与利益相关者清晰定义项目的目标和预期价值,项目将如何陷入无休止的循环并最终失败。
故事开始:一个模糊的请求

我想给你讲一个关于“摇滚项目”的故事。


利益相关者说:“给我带一块石头来。我为这座大山花了很多钱,需要你从山上带一块石头回来,让这笔花费物有所值。”

分析师回应:“好的,石头。我能办到。我擅长找石头。你想要什么样的石头?”
利益相关者说:“嗯,我不确定,就是一块石头,一块能改变我们看问题方式的重要石头。”
分析师同意:“重要石头。明白,马上找来。”
第一轮尝试:带回“重要石头”

于是,分析师出发前往大山。她用镐敲打、挖掘,洗去尘土和碎石,最终找到了一块“重要石头”。

她很高兴,捡起这块重要石头,跑下山去给利益相关者看。分析师喊道:“我回来了!我从山上带回了一块重要石头,正如你所要求的。”
利益相关者接过石头检查,看起来并不满意。分析师继续说:“用这块重要石头,我们可以做很多伟大有趣的事情。你觉得它不好吗?”
利益相关者把石头在手里翻来覆去,说:“我不太确定,这不太符合我心目中的样子。这也许是块重要石头,但我想要一块不同的石头。你能回山上再给我带一块吗?”
分析师急切地想取悦对方,同意道:“当然,我马上就能去办。这次你能多告诉我一点你想要什么样的石头吗?是沉积岩、变质岩,还是水晶?”
利益相关者说:“哦,我也不太确定,但你会找到的。我知道你会的。毕竟我买下了整座山。”
第二轮尝试与持续的失望
分析师收拾好工具,返回山上。她敲打、凿刻,甚至炸开了一些巨石,最终找到了另一块重要石头。这块石头与第一块不同,她认为它更好。是的,这就是利益相关者想要的石头。她下山去展示。
分析师喊道:“看看这块重要石头!它比第一块出色得多。看看它所有优秀的岩石特性。”
利益相关者表示同意:“这是一块非常好的石头。在其他情况下,它甚至可能就是我需要的石头。但就目前情况而言,我不确定这是适合我的石头。你在那里还找到其他好石头了吗?你介意回去再找找吗?”

分析师有点沮丧地说:“这块石头已经是非常好的石头了。我不确定这座山还能产出多少这么好的石头。但我会回去看看。”
陷入循环:无休止的寻找

分析师收拾工具,再次返回山上。此时,她已熟悉这座山的特性,因此决定,要找到另一块好石头,必须投资一些大型基础设施。她在山里挖了一个深矿,反复敲打山的核心。她的头灯是检查潜在岩石时的唯一光源。“不是这块。不是那块。不,那块也不是。”
就在她几乎要放弃时,头灯的光圈扫过了一块石头。“我的天哪。这是完美的石头。我的意思是,完美。它比你之前找到的石头好太多了。”现在,她甚至有点不好意思曾想过把之前那些石头带给利益相关者。这块石头,是一块真正惊人的石头。
她跑下山,双手捧着这块完美的石头,兴奋地喊道:“利益相关者,我给你带来了一块真正惊人的石头!看看它超一流的岩石品质。它比之前的石头好太多了。它完全是个摇滚明星!”

利益相关者说:“哇,那是块好石头。但是,嗯,我仍然不确定这是我心目中的石头。买下这座山真的是一项投资,我只是想确保我们能最大限度地利用它。也许试试山的另一面?我听说山脉那一侧的人运气不错,找到了好石头。”
分析师垂头丧气,收拾好工具,返回山上。

故事的结局:失败与教训

这种情况永恒地持续下去。循环继续,分析师不断带来新的重要石头给利益相关者,却只看到石头再次被拒绝。


直到有一天,分析师崩溃了,用石头砸向利益相关者;或者,利益相关者将这座山亏本卖给了勘探者。
首先,我想我们都同意这个故事很“摇滚”。你刚刚听到的“摇滚故事”是一个寓言,比喻了当数据分析师在没有首先明确定义数据分析应创造何种价值的情况下,就同意承担一个分析项目时会发生什么。

发生的情况是:分析师不断尝试新事物,客户或利益相关者不断要求不同的东西,因为他们觉得自己的需求没有得到满足。项目无休止地进行,各方都变得越来越沮丧。
好消息是,你可以防止这种情况发生。在接下来的几个视频中,你将了解如何做到这一点。

本节总结
本节课中,我们一起学习了“摇滚项目”这个寓言。它核心揭示了商业分析项目失败的一个关键原因:始于模糊的需求。其根本问题可以概括为:
项目目标 = 模糊的期望

这导致了一个灾难性的循环:分析师猜测 -> 交付结果 -> 被拒绝 -> 重新猜测。要打破这个循环,关键在于在项目开始前,与利益相关者共同、清晰地定义什么是“好石头”(即成功的分析结果)。下一节,我们将开始学习如何通过明确的需求定义来避免陷入这个“摇滚”陷阱。
081:S-M-A-R-T 目标 🎯

在本节课中,我们将学习如何通过定义 S-M-A-R-T 目标来避免陷入“岩石项目”,并确保数据分析项目从一开始就方向明确、价值清晰。
避免“岩石项目” 🪨
上一节我们介绍了什么是“岩石项目”。本节中我们来看看如何避免它。
“岩石项目”令人厌恶,没人愿意参与。它们之所以发生,是因为分析师在未明确分析工作将提供何种价值之前,就贸然同意启动一个数据分析项目。
除非你足够幸运,拥有自己的数据集并自费分析,否则作为数据分析师,你的工作就是利用数据来解决付费利益相关者的业务问题。这意味着,为了让你的工作取得成功,你需要知道你和他们试图解决什么业务问题。当我说“知道”时,我的意思是真正地、彻底地了解。你需要理解促使利益相关者首先来找你的所有动机和细节。
那么,你如何弄清楚这一点呢?遵循本模块的主题,你当然要提问。然后给出明智的答案,并获得利益相关者对你这些明智答案的认可。
第一步:提问与倾听 🗣️
在决定是否承接一个数据分析项目时,你应该做的第一件事就是与项目的主要出资人安排一次会议。带着准备提问的心态参加会议,提出大量问题。
你提问的目标是设身处地为他们着想,弄清楚所有利益相关者真正的动机和财务利益所在。请记住,不幸的是,他们可能并不总是清楚自己的动机和财务利益所在,即使他们自认为清楚。


为了弄清楚这一点,计划提出旨在获取具体信息的问题,但同时尽可能保持问题的开放性,以便你的利益相关者能够以他们自然的方式交谈。
以下是你可以提出的问题示例:
- 这个业务遇到了什么问题,你希望通过开发这个项目来解决?
- 你能详细说说这个问题是如何影响业务的吗?
- 你希望这个项目达到的理想结果是什么?
我无法为你提供每次会议的确切脚本,因为每次会议都不同。但我在课程网站上提供了一些链接,你可以查看以获取其他可能想问的问题的思路。
无论你问什么问题,请记住,要认真倾听利益相关者的回答。他们的需求驱动着项目,而这是你了解他们需求的机会。
第二步:制定 S-M-A-R-T 目标 📝
在会议之后,你的下一个任务是综合你所听到的内容,并起草一份反映分析项目目标的 S-M-A-R-T 声明。
这里的“S-M-A-R-T”并非指你的聪明才智,而是指由乔治·杜兰在1981年提出的一个设计有效目标的方法框架。S-M-A-R-T 目标是指那些具体、可衡量、可实现、相关且有时限的目标。将这些形容词作为检查清单,对于确保你与利益相关者达成共识非常有用,尤其是“具体”和“可衡量”部分。
如何确保你的项目目标是 S-M-A-R-T 的呢?


首先,回顾专项课程第一门课《数据驱动型公司的业务指标》,挑选一两个最符合你特定问题的业务指标。然后,明确说明如果你的建议付诸实施,该指标应如何变化,以及变化多少。这个简单的过程将使目标变得具体和可衡量。

这反过来又让你非常清楚自己要处理什么,从而可以通过确认一个指标来评估项目范围是否现实。你可以立即开始从数字角度思考你的项目。你的指标基本上将成为你的因变量和分析中最重要的故事点。看看你是否能想象出任何自变量,这些变量能将指标改变到项目预期的水平。这将帮助你评估项目范围的可行性。

示例:从模糊到 S-M-A-R-T 🧥
让我们看一个例子。假设你的客户是一家名为“Be Bell”的设计师男装在线零售商。
当你的项目经理向你描述工作时,她说:“人们在首次登录我们的网站后没有回来。我需要你告诉我们如何将首次访问者转化为回头客。”
基于此,一个相当模糊的项目目标表述是:增加回头客的数量。
但一个更聪明的目标表述是:与去年同月相比,将回头客数量按月至少提高15%。这个目标具体且可衡量。你确切地知道你应该做什么,并且可以想象在你的实际数据集中需要哪些行和列来评估项目的成功。
但我们还可以让目标变得更聪明。我稍后会回到 S-M-A-R-T 目标中的“A”部分。现在,我想关注“R”部分。确保目标“相关”意味着什么?
让我们回到我之前所说的,向你的利益相关者提出开放式问题,以深入了解他们真正关心的是什么。你的项目经理可能这样开始对话:“我希望你增加我们网站的回头客数量。”但当你问她试图解决什么业务问题时,她是这样说的:
“我们启动这个项目是因为最近收入一直在下降。这非常令人担忧,因为我们的成本保持不变。这影响了盈利能力。所以我们需要想办法增加利润。我知道其他公司通过提高客户忠诚度来增加收入,而他们是通过将首次访问者转化为回头客来实现的。我希望你为我们做同样的事情。”
通过提出有导向性的开放式问题,你了解到你的项目经理真正关心的是带来更多收入,而不是回头客本身。她只是根据她读到的东西假设利润下降的原因是客户没有回到网站。这是一个很好的假设。但实际上,我们不知道回头客数量是否与收入下降相关。如果事实证明回头客数量与收入下降无关,而你的分析完全专注于改变回头客数量,那么你的项目经理和其他利益相关者不会很高兴。

所以,确保你的项目目标是相关的。根据我们从提问中了解到的情况,以下是一个更准确地反映利益相关者关切点的陈述:

项目的目标是确定能最有效地将收入按月比去年同期提高15%的网站更改方案。
现在,我们可以通过设定时限让这个目标变得更聪明,这样我们就知道有多少时间来完成它。让我们看看这个版本:
项目的目标是在两个月内,确定能最有效地将收入按月比去年同期提高15%的网站更改方案。
到目前为止,这看起来相当不错。这个目标清楚地说明了你需要完成什么。
然而,S-M-A-R-T 目标中还有一个字母,有时可能是最难确定的。那就是“A”,代表“可实现”。你能多快确定如何更改网站以增加收入,取决于你拥有哪些可用数据。当然,如果你的利益相关者公司收集了每位网站访问者的每次点击,并将其与各种人口统计信息和以往的购买历史信息联系起来,这个项目似乎是可行的。
但是,如果你的利益相关者公司在专项课程第一门课中提到的、评估公司数据准备程度的检查清单上得分很低,并且除了记录同一IP地址的访问次数外,他们实际上没有从网站上收集任何数据,那么你面临的问题就大得多。要么你需要将项目移交给另一种不使用数据设计解决方案的分析师,要么你必须讨论帮助利益相关者收集有助于解决业务问题的方法。这些方法可能需要很长时间才能实施,具体取决于他们想要的解决方案类型,两个月的截止日期可能不可行。
因此,以下是两个符合“可实现”标准的新目标版本:
版本一:
项目的目标是在两个月内,分析存档的点击流数据,以确定能最有效地将收入按月比去年同期提高15%的网站更改方案。
版本二(可能包含两部分):
第一部分:在三个月内,安装一个系统,用于在基于云的关系数据库中收集和存储点击流数据。
第二部分:在系统安装完成后的两个月内,分析这些数据,以确定能最有效地将收入按月比去年同期提高15%的网站更改方案。
现在,将这些 S-M-A-R-T 目标与我们最初的目标“增加回头客的数量”进行比较。你更愿意将时间和金钱投入到哪种类型的目标上?
最终步骤:确认与签署 ✅
在最后阶段,确保将你的 S-M-A-R-T 目标初稿展示给利益相关者,并与他们反复沟通,直到每个人都认可这些目标。根据具体情况,你可以用一份文件来补充这些目标,详细说明其他重要截止日期、由谁评估项目、以及哪些类型的业务流程变更在或不在考虑范围内等事项。
如果你通过向利益相关者提出关于他们试图解决的业务问题的开放式问题来启动项目,并让他们签署 S-M-A-R-T 目标,你就不会发现自己身处“岩石项目”之中。同样重要的是,你在项目开始时设定的这些 S-M-A-R-T 目标将作为基石,帮助你集中和聚焦分析计划,确保你不会因为不确定应该用数据做什么而在后续的分析中迷失方向。
在本课程中,我们将多次回顾这些 S-M-A-R-T 目标,所以请确保你开始练习,将 S-M-A-R-T 标准添加到你的所有项目目标中,使之成为你的第二本能。


本节课中我们一起学习了:如何通过提问深入了解业务问题,并据此制定S-M-A-R-T(具体、可衡量、可实现、相关、有时限)目标,从而为数据分析项目奠定清晰、有价值的基础,避免陷入方向不明的“岩石项目”。
082:需求获取中倾听利益相关者 👂

在本节课中,我们将学习商业分析中的一个关键环节:需求获取。具体来说,我们将探讨如何通过“启发”过程,有效地从利益相关者那里收集信息,以确保数据分析项目的成功。
什么是启发?
上一节我们介绍了背景和提问的重要性。实际上,向利益相关者询问项目相关问题这一过程有一个专门的术语,叫做 “启发”。
启发会议通常在您接受分析工作之后进行,并贯穿项目的整个生命周期,以便持续监控利益相关者的感受。
启发技术被许多领域使用,包括人类学、认知科学和商业管理等。但在所有情境下,启发都指直接从人们那里收集信息的过程。
在商业或数据分析领域,启发过程最常在与推出新软件和实施新数据收集技术相关的长期角色中被讨论,但它对纯粹的数据分析师也同样重要。
为了说明其重要性,我在课程网站上发布了一份来自知名商业分析软件公司 SAS 的数据科学家职位招聘信息。您会看到,职位描述中有一项是:“从群体中获取信息,并与工作组计划和实施启发会议,以开发和评估替代方案、不确定性、价值和风险偏好。” 显然,这对数据科学家也很重要。
启发的三大目标
那么,在所谓的“启发”过程中,您应该做什么呢?我想您已经知道一点:提问。
我建议将启发会议视为努力实现三个主要目标。
目标一:确定关键利益相关者
以下是确定关键利益相关者的方法:
- 定义:利益相关者是指任何受您的数据分析项目影响或可能对其有浓厚兴趣的人。
- 举例:假设您负责分析一家小型百货连锁店电子部门的存档销售数据。您的任务是设计一个算法,预测向特定客户群发送优惠券的最佳时机。项目的最终愿景是使用此算法来改变企业向客户发送优惠券的时间。
- 雇佣您并对整个项目有愿景的项目发起人显然是利益相关者。
- 但营销部门中实际负责发送优惠券的人员也是利益相关者,即使他们对整个项目一无所知。毕竟,如果他们没有任何方法来整合您的预测见解,您就无法影响优惠券的发送时间,也就无法最终改善业务。
- 其他利益相关者包括组织存储存档数据的数据库团队,或可能希望将您的算法用于自身目的的其他部门。
- 甚至可能存在公司外部的利益相关者,例如美国政府。如果您的任何分析内容有被解释为侵犯客户隐私的风险,政府可能会想要了解。
因此,潜在利益相关者的名单可能非常庞大。这就是为什么启发的目标之一应该是将这个名单缩小到最有可能影响项目成败的利益相关者。
有许多不同的方法可以从人们那里获取信息,包括但不限于:面对面会议、焦点小组和电子邮件。我已将这些网站的链接包含在课程材料中,作为资源帮助您找出最适合您的启发技术组合。

一旦您确定了要使用的技术,我还提供了一个链接指向这篇文章,我认为它能很好地帮助您实现确定最重要利益相关者的最终目标。

目标二:获取数据分析的线索
您的启发会议的第二个目标应该是获取关于在数据分析中应考虑哪些类型的影响或因素的线索。换句话说,您试图弄清楚如何优先考虑要检查的自变量。
通常,雇佣您的人并不是最接近业务问题或数据的人。因此,他们可能无法为您提供与解决问题相关的所有具体因素。
因此,无论您使用其他什么启发技术,我强烈建议您尽可能多地与潜在利益相关者进行面对面会议,特别是与您知道会受到项目高度影响的人。
在我们之前的例子中,这意味着要与实际负责发送这些优惠券的人员进行面对面会议。
与您试图与项目负责人确立项目目标时类似,带着计划去参加这些与利益相关者的启发会议,提出有引导性的开放式问题,让您的利益相关者能够自然地交谈。
尽力获取他们对当前情况的真实看法。这些会议有许多不同的模板,但我最喜欢问的一些问题是:
- “以前尝试过什么?结果如何?”
- “您认为什么可以改善这个业务问题?”
这类问题如果成功,将为您提供具体的想法,告诉您应该将哪些因素操作化为分析中的自变量。它还将帮助您了解在项目结束时最终建议的业务流程变更可能存在的潜在限制。
尽可能多地了解在您公司的企业文化或数据架构下,哪些类型的变更容易或难以实施,并确保在制定推荐策略时将这些因素考虑在内。
例如,如果您的利益相关者似乎不信任数据,您可能不希望建议公司在一夜之间彻底改革其数据结构。相反,您需要想出一个更渐进的解决方案,以确保利益相关者接受。
目标三:发现潜在分歧
您在启发会议期间的第三个目标是诚实地发现潜在分歧。这听起来可能很有争议,但我提到它是因为我认为意识到这一点很重要。
我将通过一个真实的故事向您介绍这一点,这个故事由全球最大的大数据咨询公司之一 Gartner 的研究总监 Splano Sler 与我分享。故事中汽车公司的真实名称已被有意隐去,但这是 Gartner 关于数据分析项目为何失败的研究中的一个真实案例。
一家汽车公司的高管决定使用数据分析来寻找竞争洞察,以帮助其经销商促进对客户的销售。公司投资数百万美元进行了一项为期六个月的客户情绪分析项目。高管们对这个项目感到非常兴奋,并在公司内部大肆宣传,称数据分析揭示的发现将彻底改变他们销售汽车的方式,并为所有人增加收入。
当分析项目完成时,一份包含其发现的报告连同高管们认为基于数据发现的优秀全新销售技巧一起分发给了特许经销商。但令高管们惊讶的是,经销商们对报告内容一点也不满意。事实上,他们感到非常沮丧。他们已经知道报告中的所有内容。数据分析没有提供任何他们已经在做的事情之外的新东西。
因此,高管们为这个项目投入了数百万美元,但他们从未征求过实际将使用数据分析产品的人的建议。结果,所有这些钱都完全浪费了。这次失误让高管们损失了大量金钱和尊严,但至少他们为下一个数据分析项目吸取了重要教训。

始终记住要与您的利益相关者沟通。

因此,启发问题的第三个目标应该是查明所有利益相关者是否就需要解决的业务问题达成一致。
要做好准备,您可能会发现一些利益相关者对项目的看法与您从分配项目任务的人那里听到的完全不同。
由于您的解决方案只有在至少大多数利益相关者接受的情况下才能成功,如果您确实发现利益相关者对项目的期望存在差异,请将所有人召集到一个房间里,讨论业务问题,然后修订您的 SMART 目标,直到每个人(或至少关键多数)达成一致。我知道这可能不愉快,但这比为公司浪费数百万美元而承担责任要愉快得多。
总结

本节课中,我们一起学习了需求获取的核心——启发过程。
作为商业分析师,您工作的一部分(当然也是让您最成功的部分)将是仔细关注谁参与了您试图解决的业务问题的背景。

在整个项目中,请持续与人交谈,持续提问,持续倾听,并持续思考如何将人们所说的内容转化为您可以测试的变量。无论您在特定行业工作了多久,您的利益相关者都是您试图解决的具体问题方面最好的领域专家。向他们提问并倾听他们的答案,将是您最终能在数据分析中利用他们的业务知识的最佳方式。
083:利益相关者期望的重要性 📊

在本节课中,我们将探讨在数据分析项目中,理解并管理利益相关者期望的重要性。我们将了解不同级别的数据分析,以及当公司文化或利益相关者偏好与最佳分析实践不匹配时,可以采取的策略。
在本课程开始时,我给出的一个建议是:期望在数据分析项目中至关重要。
我和 Daniel 热爱分析数据,并对数据分析最先进、最雄心勃勃的应用感到兴奋。但正如你在第一门课程《数据驱动公司的商业指标》中所听到的,许多公司,事实上研究表明大多数公司,尚未准备好将数据分析融入其商业实践中。
还记得我给出的另一个建议吗?最佳实践不一定是普遍实践。在你参与的每一个商业分析项目中,你都必须评估,考虑到公司的文化和利益相关者的期望,何种级别的数据分析是合适或能成功的。
我阅读了 Gartner(全球最大的数据咨询公司之一)的 Doug Laney 的一篇文章。我认为它特别贴切地表达了这种观点。因此,我邀请 Doug 来分享他的见解。首先,他会介绍 Gartner 的职能以及他在那里的工作。然后,我们将了解 Gartner 关于利益相关者期望的研究。
Gartner 是全球领先的 IT 研究和咨询公司。我们拥有超过 1000 名分析师,每位分析师覆盖技术市场的不同领域。我们主要为 IT 领导者(如首席信息官)和其他专业人士提供咨询,并且越来越多地为商业领袖提供咨询,因为 IT 和信息相关主题对商业人士越来越重要和关键。
以下是 Doug 对他在 Gartner 职位的描述。我是我们数据战略研究团队的一员。这是一个新团队,其重点不一定是技术问题,而更多是技术的应用以及一些软件相关问题,例如组织问题、角色、数据治理、信息相关战略等主题。
Doug 经常就公司与数据互动的不同方式进行演讲。在 Gartner,他们经常谈论分析连续体。以下是 Doug 的介绍。
Gartner 定义了我们所谓的“分析连续体”。在这个连续体上有四种分析风格。
以下是四种分析风格:
- 描述性分析:回答“发生了什么”的问题。这是一种更侧重于后见之明的分析,通常由漂亮的饼图和条形图代表,没有太多更复杂的内容。它真正回答的是“发生了什么”或“正在发生什么”的问题。
- 诊断性分析:这一级别更复杂一些,它回答关于“事情为何发生”的问题。它寻找根本原因并进行根本原因分析,试图在海量数据中找到关键信息。欺诈检测就是一个很好的例子,或者与维护相关的问题。它真正回答的是“某事为何发生”的问题。
- 预测性分析:许多人称之为预测分析,它当然回答“将会发生什么”的问题。它更侧重于理解事情发生的原因和现状,以描绘未来所有可能使用场景的轨迹。典型的例子是预测。
- 规范性分析:在这一级别,系统实际上会给出建议。正如你所想象的,随着你在这个分析连续体上向上移动,不仅技术的复杂程度,而且所需技能的复杂程度也越来越高。我们通常将诊断性、预测性和规范性领域的分析称为“高级分析”,因为它们确实与基本商业智能不同,并且远远超越了它。
这就是 Gartner 的分析连续体。
那么,为什么没有更多公司向连续体的更高层级移动呢?
有一些因素在压制组织,使其继续专注于更基础的分析类型。
以下是阻碍因素:
- 惯性:这是我们从 90 年代以来的惯常做法,我们一直在构建报告和 Excel 电子表格等,因此对此有一定的舒适度。
- 低垂的果实:许多问题被认为是容易解决的,实施这类解决方案非常容易。
- 工具普及:正如我提到的 Excel 以及许多其他基本的商业智能工具,这些工具在组织中非常普遍。
另一方面,更高级的分析解决方案往往受到经验缺乏的困扰。公司没有能够处理这类技术并理解实施它们可能需要的分析模型的人员。算法本身对商业人士来说可能是可怕的“黑匣子”。商业人士理解条形图和饼图,但他们不理解线性回归分析、机器学习或启发式处理等。外面有大量复杂的分析概念,而且它们越复杂,对商业人士来说就越可怕。因此,你必须真正引导他们接受。也许这也是本课程的部分目的。
现在,关键问题来了。如果解决业务问题的最佳方式是使用一种比公司文化所习惯的级别更高的数据分析类型,数据分析师应该怎么做?更糟糕的是,如果实现项目既定智能目标的唯一方法是使用项目主要利益相关者不接受的分析类型,又该怎么办?
以下是 Doug 的建议。许多公司和商业人士并不了解“可能的艺术”。有一些人对大数据和高级分析的承诺及其能为组织带来的价值感到兴奋,但正如你提到的,也有一些人并不兴奋。也许最好的方法是向他们展示其他组织(无论是行业内还是行业外)已经完成的例子,或者向他们展示一些小原型,带来一些你能够轻松生成的小片段见解,并将其带给那些可能持抵触态度的商业人士,并说:“嘿,看看我发现了什么,这是否具有潜在的可操作性?你希望我们进一步深入研究吗?”
在通过 techtarget.com 在线发表的一篇文章中,Doug 还提供了另一个选择。你可以建议组建两个独立的数据分析团队:一个负责公司习惯的传统商业分析,另一个负责尚不符合公司文化的较新分析。
这两个团队将按照不同的规则运作。更传统的团队可以按照最适合公司当前文化的方式,实施管理者要求的内容。另一个分析团队将被赋予更具调查性的角色,主要使用科学方法,利用数据来开发和测试与业务流程相关的假设,即使公司还不习惯做出数据驱动的决策。
这个“双团队”的想法绝对是一个值得牢记的策略,如果你在未来遇到这类问题,可以提出这个建议。
我希望你从本视频中记住的最重要的一点是,当你与项目负责人和利益相关者沟通时,要特别注意他们愿意使用哪种分析工具和接受哪种分析结果。
即使你的主要分析工具是 Excel 和 Tableau 这样的可视化软件,你得出建议业务流程变更的数据驱动方式,对你的利益相关者来说可能仍然很陌生,并可能使他们不愿意同意你的建议。如果情况确实如此,试着站在他们的角度思考,理解他们犹豫的原因,然后寻找一种方法来帮助他们理解你数据分析的价值。
此外,在这个背景下,需要记住一个赋予力量的事实:数据可视化是明确设计为任何人都能理解的。如果你能正确地制作它们,它们会讲述故事,人们能理解其含义。因此,熟练掌握数据可视化和沟通技巧,在数据分析中将有多种用途,无论你身处何种公司文化。😊

在本节课中,我们一起学习了 Gartner 的分析连续体(描述性、诊断性、预测性、规范性),理解了公司文化和利益相关者期望如何影响分析项目的接受度,并探讨了当最佳分析与当前文化不匹配时,可以通过展示案例、制作原型或建议组建“双团队”等策略来引导和说服利益相关者。
084:使用 SPAPS 构建思维框架 - 第一部分

📋 概述
在本节课中,我们将学习如何为数据分析项目制定一个清晰的计划。我们将介绍一种名为“结构化金字塔分析计划”的方法,帮助你系统地组织分析目标、指标和影响因素,确保分析工作高效且有方向。
🏗️ 构建分析计划的必要性
通过前期的需求启发过程,你已经为数据分析搭建了一个初步的骨架。你已经明确了大多数分析中的因变量,因为你的团队已经确认了一个包含 SMART 指标的目标。同时,你也对可能影响该业务指标的因素或自变量有了一些想法,因为你向利益相关者提出了许多问题并获得了有用的答案。
然而,除非你拥有无限的时间和资源,否则你不应该在未制定计划的情况下直接开始数据分析。正如你不应该在未定义分析预期价值的情况下就同意启动一个数据分析项目一样。
当你需要理解和处理大量信息时,漫无目的或没有假设地探索数据集是非常耗费资源且低效的。同样,对于一个团队来说,如果没有一个可供参考的共同路线图来指导方向,也很难协同工作。
这就是为什么我们在开始学习使用 Tableau 之前,要花时间讨论分析计划。
📝 清晰分析计划的好处
拥有计划并不意味着你不能发挥创造性,也不意味着你不能灵活调整。它的意义在于,它迫使你清晰表达并沟通你将要做的事情,从而确保你保持在正确的轨道上,在过程中获得反馈,并拥有一个理解所发现洞察的框架。
具体来说,一个清晰的分析计划将为你提供一张地图,以确保你专注于任务,不会被与 SMART 目标无关的数据分散注意力。它还能让你更容易地追踪思维中的漏洞,为你提供一个传达结论的框架,为你提供一个报告进度的直接结构,并使整个团队对下一步需要做什么达成共识。
🏔️ 引入结构化金字塔分析计划
在本课中,我想与你分享一种我称之为“结构化金字塔分析计划”的方法,用于制定数据分析计划。在本视频中,我们将介绍如何设置 SPAPS。下一个视频将详细介绍如何执行你的 SPAPS。
我设计 SPAP 是因为我发现将数据分析的框架视为一个金字塔非常有用。你的 SMART 目标和用于评估进展的问题指标位于金字塔顶端。在其下方,所有可能影响你指标的变量被组织在层层展开、细节逐渐增多的层级中。用于评估这些变量的可视化图表则位于金字塔的底部。
🛠️ 创建 SPAPS 的工具
要自己制作一个 SPAPS,你需要一块不会被擦掉的大白板、一张大纸、一些便利贴,或者一些允许你轻松绘制层次结构和链接的软件,例如网络上免费可用的思维导图软件。
你也可以在一个非常大的 PowerPoint 幻灯片中绘制 SPAPS。这次我将演示这种方法。但老实说,我最喜欢的选择是先用便利贴或索引卡进行头脑风暴,然后将最终结果输入到易于通过电子邮件或网络共享的思维导图软件中。
🚀 开始构建 SPAPS:顶层目标与指标
要开始你的 SPAPS,请将你的 SMART 目标写在金字塔的顶部。毕竟,它是你分析的基石和驱动力。为了将这个目标转化为可以分析的数字,正如你常听我说的,你将把你的 SMART 指标视为你的因变量。
为了说明,我将使用之前视频中的 ClickSt 示例。在我们的案例中,收入将是我们关心的指标。
下一步非常重要。我希望你实际上将用于衡量指标的具体因变量写在 SMART 目标的正下方,在你的 SPAPS 上。这听起来可能很简单,但当你这样做时,首先会注意到的一件事是,有时无论你最初写下 SMART 目标时认为它有多具体,最终总会有几种不同的有用方式来评估你的 SMART 指标。虽然每种方式都可能有效,但它们可能会给你略有不同的信息或时间分辨率。
例如,在我们的场景中,“增加收入”看起来很具体。但一旦你拿到数据来计算带来了多少收入,你很快就会意识到有多少种不同的方式可以计算和表示收入。
以下是一个数据可能看起来的示例。你可以看到,每个购买的商品都有一行不同的数据。
| 交易ID | 客户ID | 商品 | 数量 | 单价 | 月份 |
|---|---|---|---|---|---|
| 001 | A | 商品1 | 2 | $10 | 一月 |
| 001 | A | 商品2 | 1 | $15 | 一月 |
| 002 | B | 商品3 | 1 | $20 | 一月 |
| 003 | A | 商品1 | 1 | $10 | 二月 |
对于这些商品中的每一个,你知道谁买了它,买了多少,一起买了什么,以及每个商品的成本。
一种计算收入的方法是评估客户在每次交易中花费的总金额。换句话说,你需要汇总我在这里为你用颜色编码的所有行,其中每种颜色由交易ID决定。
收入_每次交易 = SUM(单价 * 数量) GROUP BY 交易ID
以这种方式计算收入可以让你调查客户在特定访问期间的特定体验是否与他们在那次特定访问中的花费有关。
另一种评估收入的方法是计算每月带来的总收入。在这种情况下,你需要再次汇总给定颜色的所有行,但这次,每种颜色将由交易的月份决定。
收入_每月 = SUM(单价 * 数量) GROUP BY 月份
以这种方式计算收入可以让你调查网站的整体表现,特别是与往年相比。
还有一种评估收入的方法可能是计算每个客户花费的总金额。在这种情况下,你需要再次汇总给定颜色的所有行。但这次,每种颜色将由客户ID决定。
收入_每位客户 = SUM(单价 * 数量) GROUP BY 客户ID
以这种方式计算收入将有助于查看不同的客户群体。
你为分析选择哪种方法将取决于你的问题、所需的粒度级别、你感兴趣的其他变量以及你想要使用的模型或统计类型。当我们学习 Tableau 课程时,我们将看到这方面的例子。
现在,当你认为可能有多种有用的测量方法可以代表你的 SMART 指标时,我希望你把它们都写在你的 SPAPS 上。这样做将帮助你理清思路,明确你将如何回答关于数据的每个问题,以及得出每个答案需要多长时间。
🧱 构建金字塔的中间层:组织影响因素
一旦你完成了 SMART 目标和指标(第一层),你就可以开始构建更深层次了。位于 SMART 目标之下的层级旨在定义一个逻辑结构或框架,来组织你将探索的因素。
在这里,你将组织对于实现 SMART 目标很重要的问题的一般类别和子类别。将所有这些问题视为你的自变量,它们可以影响你的 SMART 指标(记住,这些是你的因变量)。
我们现在将介绍一种组织自变量的方法,但对我来说,你是否使用特定方法并不重要。我关心的是,你以某种逻辑方式组织你的变量,使你和你的团队能够跟踪已完成的工作并高效地处理问题。
我们在此演示的方法基于你通过与利益相关者交谈和自身经验了解到的问题,来设计 SPAPS 的中间层。本质上,你需要将启发过程中学到的一切,组织成你知道必须检查的因素的类别和子类别。
作为说明,我已经用一些可能影响我们网站示例收入的问题填充了 SPAPS 的中间层。
你可以看到,在第二层,我有一个与客户人口统计相关的大问题类别。另一个大类别与客户访问网站时可能表现出的行为有关。第三个类别与可能影响网站成功的营销策略有关。
然后,这些较大的类别在第三层被分解为更具体的类别。我在这里只列出了几个类别和子类别,但在实际项目中,你应该创建尽可能多的层级和子层级,以涵盖你希望确保记录或解决的所有问题。
请记住,你的 SPAPS 既可以帮助你简化分析,也可以用于向团队其他成员和利益相关者传达你正在做什么、已经做了什么。因此,尽可能好地记录你将解决的问题是值得的。对于一个大型项目,记录所有这些问题可能需要一些时间,但我保证这是值得的。
🔮 总结与预告
本节课中,我们一起学习了如何为数据分析构建一个清晰的计划框架——结构化金字塔分析计划。我们明确了从顶层的 SMART 目标和因变量指标开始,到系统地组织可能影响指标的自变量类别的重要性。这确保了分析工作有方向、可协作、可沟通。


在下一个视频中,我们将学习如何将制作可视化图表与你的 SPAPS 结合起来,使你能够尽可能快速高效地聚焦于你的业务建议。
085:使用SPAPS构建思维框架 - 第二部分

概述
在本节课中,我们将学习如何运用已构建的结构化金字塔分析计划,通过逐层分析来寻找商业洞见。我们将具体介绍如何确定数据来源、设定分析优先级、利用可视化工具高效识别关键变量,并最终提炼出可指导商业决策的核心发现。
在上一节中,我们完成了结构化金字塔分析计划所有层级的填充。本节中,我们将探讨如何逐层处理SPAPS,以发掘商业洞见。
当你的类别和子类别都已组织好后,下一步就是明确列出你将使用哪些数据来应对每个大类下的最详细子类别。具体而言,你需要写下将使用哪个数据源中的哪个变量。如果你不清楚数据来源,请在SPAPS上做好标记。
以下是数据状态标记的建议:
- 符号A:我知道数据在哪里,并且知道如何获取。
- 符号B:我确信数据存在,但不完全清楚其具体位置或变量组织方式。
- 符号C:我完全不确定这类数据是否存在。
建议你这样做的原因是,虽然分析师通常能相对容易地获得某些数据,但要获取你真正想要的特定类型数据可能会困难得多。你需要尽快弄清楚是否存在关键数据缺失,或者是否有数据需要很长时间来准备。有时解决这类问题可能需要一个月甚至更久。因此,越早了解是否需要调整计划或与团队协作获取其他类型的数据,对你越有利。
一旦明确了每个类别或子类别将使用的数据变量,下一步就是根据提出者、预估影响力以及评估可行性,为每个类别和子类别设定优先级。
设定优先级后,建议你根据优先级重新排列金字塔中的每条分析路径,以便清晰地了解需要重点关注的内容。如果这样做,所有最高优先级的项目将位于左侧,而优先级较低的则位于右侧。最终,你将得到一个类似下图的布局。
顺便提一下,现在是你的分析项目生命周期中向团队和/或利益相关者寻求反馈的好时机。理想情况下,所有重要的利益相关者都会同意你制定的计划,因为这不仅决定了你的工作顺序,也是在紧迫截止日期下工作时,沟通和证明你时间分配决策的依据。你的利益相关者可能不习惯直接查看SPAPS,但他们会对拥有你具体计划的文档记录表示感激。
SPAPS的最后一步是实际执行计划,并聚焦于那些能帮助你解决商业问题的最重要议题或自变量。
在此项目最后阶段,你的任务是识别出值得投入时间的重大影响,并进行更深入的理解。了解你的智能指标与自变量之间可能的关系强度,能让你很好地预估出就商业问题得出结论所需的时间。
判断逻辑如下:
- 如果你测试的智能指标与自变量之间存在至少一些强效应,你应首先关注那些自变量。
- 如果智能指标与你测试的自变量之间没有任何强效应,那么你需要要么回头与利益相关者商讨,找出更多变量来检验;要么需要寻求具有更多统计专业知识的团队成员帮助,以建立更精细的模型。
分析项目的这一步,正是数据分析(而不仅仅是数据沟通)可视化软件威力最明显的体现。过去,分析师使用统计程序或Excel来寻找强效应。为了发现这些效应,你几乎需要为每一项想要实施的分析重新整理数据。相比之下,设计良好的可视化程序(如Tableau)能让强关系一目了然。而且,一旦你为第一次分析将数据整理成正确格式,就无需再次重新整理。因此,结合SPAPS,我发现可视化程序在快速识别哪些自变量对理解智能指标最为重要方面,比统计程序高效得多。这在不需要复杂统计或数学模型的传统商业分析情境中尤其如此。
我喜欢的可视化策略是,为SPAPS第二层和第三层中的每一个类别制作一到两张图表进行评估。暂时先不要为更深层制作可视化。
在你的变量旁边或金字塔的底层简要描述你的图表会是什么样子,以便于跟踪。我建议在此阶段将自己限制在条形图、散点图和折线图,具体原因我们将在未来几周学习。
逐一处理第二层和第三层的每个类别,查看图表是否揭示了明显的模式。对于制作的每一张图表,问自己:是否有任何模式脱颖而出或吸引了我的注意?
处理流程如下:
- 如果没有,用代表“不太可能产生洞见”的颜色高亮或标记该类别,并且不要继续深入该类别下的金字塔分支。
- 如果看起来智能指标和自变量之间可能存在某种关系,用一个符号或颜色标记,以表示你认为它有多大可能带来洞见。
- 如果智能指标和自变量之间肯定存在关系,用代表“需要回头深入分析”的符号标记。
每当你的SPAPS某部分被标记为“需要回头深入分析”时,应有意识地沿着金字塔的该部分向下深入所有层级,为每一层子类别制作图表,直到你对自己所发生的情况以及为何这些变量会影响你的智能指标形成一个良好、有力的假设。
遍历金字塔的所有层级需要时间。因此,我建议开始时仅为金字塔的第二层和第三层制作图表,而不涉及更深层,是希望这能帮助你避免不必要的工作。如果你在这些顶层没有看到明显的效应,那么在更详细的层级看到效应的可能性也较小。不过,通常同时为第三层和第二层制作图表是个好主意,因为仅查看第二层的大类可能会隐藏只有在将数据进一步细分时才能看到的重要效应。当你的第三层有很多子类别时,尤其如此。
也就是说,你可以根据是否有足够的数据或类别来判断,是值得遍历第三层及以下的每一项,还是为了节省时间仅制作第二层的图表。
在遍历金字塔各层时,确保将所学融入你的计划。添加新的假设,或划掉已知不再相关的假设。观察出现的模式,并优化和精简你的假设。例如,如果你发现两个可能的类别或因素可能与智能指标有非常强的关系,那么研究这些因素如何相互作用很可能很重要,并且你可能想将其添加到分析计划中。
记住在整个过程中也要持续获取反馈,以确保你正在进行的工作有意义且有用。
最终,在此过程结束时,你将逐步筛选出与你的智能指标似乎有最强关系的因素。
当你完成整个SPAPS分析后,你将要么对为实现智能目标可实施哪些商业变革有一个强有力的假设,要么对完成项目所需的其他资源有更清晰的认识。
此外,仅仅通过执行这个过程,你就拥有了一种向团队和利益相关者记录你所做工作的方法,并且如果还有更多工作要做,也拥有了一种与团队其他成员分工协作的机制。
你为SPAPS制作的所有可视化图表,其设计初衷都是为了帮助你分析数据。一旦你完成了分析,并知道了哪些数据对实现智能目标最为重要,你将开始从制作用于分析数据的可视化,转向制作用于传达数据含义的可视化。我们将在本课程接下来的几周内学习如何制作这两种类型的可视化。

总结
本节课中,我们一起学习了如何执行结构化金字塔分析计划。我们明确了确定数据变量与来源、设定分析优先级的方法,并重点介绍了如何利用可视化工具高效地识别关键自变量与智能指标之间的强关系。通过逐层分析和持续迭代,我们能够聚焦核心问题,形成有力的商业假设,并为后续的数据沟通奠定基础。
086:利用数据可视化驱动分析

在本节课中,我们将要学习数据分析师为何有时被称为数据科学家,以及数据可视化在揭示数据意义和指导预测模型构建中的核心作用。
数据分析的科学与艺术
数据分析师有时被称为数据科学家的原因在于,我们的目标是以一种清晰明了的方式呈现数据的洞察,让所有看到的人都能理解其含义、背后的真相以及如何据此采取行动。正如约翰·斯图尔特·密尔等许多哲学家所言,这属于科学的范畴。
进一步而言,在现实世界中,数据分析师和数据科学家的主要工作之一,是使用预测性计算机算法来自动化业务流程或商业洞察的生成。正如这里引用的计算机科学家约翰·麦卡锡所说,这也属于科学的范畴。
因此,根据以上两种定义,无论你的正式职位名称是什么,你的目标都应该是成为一名数据科学家,而不仅仅是一名数据分析师。
然而,除非我们了解世界的哪些特征对于纳入我们用于自动化流程的预测算法是重要的,否则我们无法有效地实现业务流程的自动化。这正是艺术发挥作用的地方。
数据科学的艺术
数据科学的艺术在于,找出如何将我们从数据中学到的东西,组织成有意义的形式。换句话说,就是将其编排成一个讲述科学真理的故事,这些真理被理解得如此透彻,以至于至少在理论上可以被自动化。
在实践中,这个过程意味着以多种不同的方式审视你的数据,直到你弄清楚数据洞察应该以何种顺序组织,以便你能够——用约翰·斯图尔特·密尔的话说——“揭示宇宙的普遍秩序”,或者用唐纳德·克努特的话说——知道你应该将什么放入你将在某种编程语言中实现的预测模型里。
数据可视化的作用
数据可视化正是为你实现这一目标。它帮助你高效地理解数据的含义,并在此过程中,帮助你聚焦于在统计模型或预测算法中应考虑哪些因素。

以下是数据可视化的两个核心作用:
- 高效理解数据含义:通过图形化展示,快速发现模式、趋势和异常。
- 聚焦关键建模因素:识别出对结果有重要影响的变量,指导后续的模型构建。
在接下来的两周,我们将学习如何使用 Tableau 软件来实现这类数据可视化。
本节课中,我们一起学习了数据分析兼具科学与艺术的双重属性。数据可视化是连接两者的关键工具,它不仅能高效传达洞察(科学),还能通过探索性分析帮助我们发现用于构建自动化预测模型的关键特征(艺术)。
087:为何选择Tableau 📊


概述
在本节课中,我们将探讨为何选择Tableau作为本课程的核心可视化软件。我们将了解Tableau在商业分析中的独特优势,并通过行业专家的分享,理解其在处理数据、创建可视化图表和构建交互式仪表板方面的强大能力。


课程内容
在接下来的几周里,我们将学习如何使用可视化软件Tableau来发现并最终传达商业问题的答案。
我们为何选择Tableau作为您完成本课程后应该掌握的软件?
让我们听听Square公司分析与报告工具负责人Ryan Mason的看法。Square是一家金融公司,它生产那些可以连接到手机上的小方块设备,使得任何拥有移动设备的人都能接受信用卡付款。
Ryan Mason在Square担任分析与报告工具团队的负责人。
我询问Ryan,作为分析团队的负责人,他在工作中主要使用哪些软件工具。以下是他的回答。
在Square的分析工作中,我们处理的数据主要来自数据库。这些数据来自各种不同的服务,我们的数据主要存储在MySQL中。尽管为了访问它们,我们同时使用MySQL、Hive和Vertica。Vertica是一种高性能的列式存储数据库。为了与这些数据库交互,我们使用Ruby和Python编写的查询封装器来提取数据,并进行程序化交互。

一旦我们有了可供处理的数据,我们主要使用Tableau,有些人也使用Excel——全球使用最广泛的分析工具。
Ryan是日益壮大的数据爱好者群体中的一员,他们将Tableau作为首选的分析平台之一。这是因为Tableau是一个极其强大的可视化工具,它允许您在几秒钟内创建数据可视化图表。而其他工具,如Excel,制作相同的可视化图表可能需要几分钟甚至几十分钟。
此外,Tableau的独特之处在于,当您创建这些可视化图表时,Tableau会自动应用可视化科学中的最佳实践来格式化图表视图,从而使您关注正确的内容。Tableau能做到这一点,是因为其创始人是斯坦福大学可视化计算机科学领域的全球领导者。
您可能已经注意到,一些更传统的分析程序(如Excel)的最新版本也开始加入更高级的可视化功能。许多人认为,Tableau是推动这些变化的主要动力。Tableau在起步时就如此独特,以至于其他公司不得不进行调整以保持竞争力。尽管其他公司正在努力追赶,Tableau在这一领域仍保持领先地位。考虑到我的神经科学背景,我特别喜欢Tableau的这一方面。
Tableau专业版最重要的功能之一是它可以连接到大多数类型的数据库,并导入海量数据。而Excel在导入100万行数据后就会崩溃。Tableau,至少是其专业版,是为大数据量身定做的。实际上,在底层,Tableau运行的许多数据库查询与您将在本专项课程第4课中学习手动运行的查询是相同的。
让我们听听Ryan如何描述他对Tableau的使用。我每周使用Tableau几次,已经用了很多年。对我来说,它是将数据表转化为描述现状的图表的最快方式,并且允许我快速与之交互,以理解不同的数据切片和视图。当然,我可以用SQL查询手动构建Tableau生成的所有内容,但手动编写相当繁琐。所以我喜欢做的是从一个相当大的数据集开始,直接将其加载到Tableau中,通过交互来尝试弄清楚发生了什么,然后可能手动开发一些聚合查询来监控情况,或者根据规模让Tableau来处理。
Tableau另一个著名的功能是制作仪表板非常容易。就像汽车中的仪表板让驾驶员能够监控汽车的重要状况一样,商业智能仪表板让您一目了然地查看关键业务指标或实时发生的指标。其目标是让任何查看仪表板的人都能立即知道业务是出了问题还是进展顺利。它们通常由分析师设计和配置,然后发布给公司内的所有人,以便每个人都能随时关注。像Tableau这样的程序允许这些仪表板具有交互性,这样公司里的每个人都可以操作它们,感受数据的样子。
这是一个商业仪表板的示例。这是Tableau网站上的一个销售仪表板。最重要的信息显示在顶部,这里会获得最多的关注。您可以看到总销售额、交易数量、平均交易规模和每个销售人员的收入。当然,仪表板上还有很多其他有趣的信息。在这里,您可以看到每年的收入随时间变化的情况。您还可以看到累计总额。同样,如果您将鼠标悬停上去,它甚至会提供更多数据。在下面这里,您可以看到销售团队的绩效,因此您实际上可以看到销售团队中每个人的表现如何。在这里,您有每季度的收入。现在,这个仪表板最重要的部分也许是它的交互性。因此,任何查看此仪表板的人都可以更改和操作数据,以获取他们所需的确切信息。例如,您可以更改日期。仪表板会自动更新,向您显示您所要求的确切数据。您也可以更改国家或地区。假设我们只想查看拉丁美洲的数据。或者销售团队,假设我们只想查看企业销售团队的数据。每次仪表板都会自动更新,并告诉您您所要求的确切信息。这是一个非常强大的工具。正如您现在可以想象的那样,在看到一个仪表板后,仪表板可能成为对公司非常有用和有吸引力的工具。让我告诉您,特别是当它们连接到数据库时,它们还可以为分析师节省大量时间,并成为分析师最好的朋友。
让我们听听Tableau的仪表板功能为Ryan带来了什么。我们同时使用Tableau Desktop和Tableau Server。所以我认为我最喜欢的功能是,我可以在某个时间点进行分析,构建一个仪表板,将其发布到网络上,并允许人们在适合他们的时间与之交互,数据会在合理的时间范围内刷新。因此,我可以一次性构建某些内容,使其始终可用并保持刷新。在我使用Tableau之前,我有一份工作,每周一必须运行一堆SQL查询,将数据复制粘贴到Excel中,然后对其运行数据透视表,再通过电子邮件发送给某人。通过能够说“这里有一个包含所有这些信息的仪表板,您随时可以访问”,我节省了大量时间。然后我还参与开发了一个工具,用于截取该仪表板的屏幕截图并通过电子邮件发送给人们,以便他们可以在收件箱中收到它。
您听到Ryan谈到Tableau Desktop和Server,也听到我谈到Tableau Desktop的专业版。Tableau有许多不同的版本,功能略有不同。有一个完全免费的版本叫做Tableau Public,它包括一个可以安装在您桌面上的Tableau Public界面。这个版本几乎可以完成其他版本能做的所有事情,但您的数据不能超过100万行。您必须将数据保存到他们的网站,而不是您的桌面,并且只能连接到Excel电子表格、文本文件和Microsoft Access文件,不能连接数据库。根据我的经验,连接到非常大的数据文件有时也可能有点慢。还有付费的Tableau Desktop版本,一个用于个人使用,一个用于专业使用。这两个版本都允许您将数据和工作簿保存到桌面,并提供了通过在线工具与他人分享您的工作的方法。幸运的是,Tableau向我们的课程捐赠了Tableau Desktop订阅。因此,您将亲身体验如何使用它们。
除了通过正常的订阅服务将文件保存到桌面外,个人版还允许您将数据保存到云端的Tableau Online或Tableau Server。专业版是唯一可以连接到数据库的版本,因此实际上是唯一能够高效处理那些真正庞大的专业数据集的版本。它也是唯一可以连接到Tableau Server的版本。Tableau Server基本上是一种在您自己公司内部以非常安全和可控的方式共享内容的方法。
无论您的公司拥有哪个版本,Tableau都是一个非常强大的工具,它将显著提高您分析的效率。它将帮助您清理数据、发现数据中的模式、检验您的假设,并用您的数据讲述故事。我们在这个专项课程中投入了大量时间,因为无论您是否有非常强的定量背景,或者完全没有定量背景,我们坚信Tableau将为您提供许多新的价值。
您对成为Tableau专家感到兴奋吗?我希望如此。

总结
本节课中,我们一起学习了选择Tableau作为核心分析工具的原因。我们了解到Tableau在快速创建可视化、应用可视化最佳实践、处理海量数据以及构建交互式商业仪表板方面的卓越能力。通过行业专家Ryan的分享,我们看到了Tableau在实际工作中如何提升分析效率并节省时间。无论您的基础如何,Tableau都将成为您商业分析工具箱中一个极具价值的工具。
088:认识您的薪资数据 📊

在本节课中,我们将要学习一个用于商业分析的公开数据集——美国外籍劳工薪资数据。我们将了解这个数据集的来源、包含的字段、其价值以及在使用时需要注意的局限性。
数据集背景与来源
在开始分析之前,了解数据的背景至关重要。本节将介绍我们即将使用的薪资数据集的来源和收集目的。
当一家美国公司希望为某个专业或技术岗位从美国境外雇佣员工时,它必须向美国政府提交申请,为申请人获取签证,以便其能够合法留在美国境内。
通常,公司会提交两种申请:一种是称为“PERM申请”的绿卡申请,另一种是称为“LCA”的劳动条件申请。LCA涵盖了其他专业工作签证,例如H-1B签证。
提交这些申请的主要原因之一,当然是让美国政府能够追踪因工作原因进出该国的人员。但另一个原因是,政府希望确保移民工人既没有被剥削,也没有对美国本土工人造成不利影响。
因此,公司每次提交申请时,都必须声明其计划支付给该员工的薪资数额。同时,他们还必须声明具有相似技能和背景的员工在同一职位上通常获得的平均薪资,这个数字被称为“现行工资”。
理论上(尽管移民博客暗示现实中并非总是如此),雇主支付给外籍员工的工资不能与该职位和教育水平的现行工资有显著差异。这是为了确保美国和非美国工人之间的公平性。
数据的公开性与价值
有趣的是,对我们而言,所有工作签证申请都可以在美国外籍劳工认证办公室的网站上公开获取和下载。
这意味着,如果你有足够的耐心将所有数据整合起来(幸运的是,我们团队的成员做到了这一点),就有可能查看到特定职业人群的薪资信息。同时,也可以研究这些薪资在美国不同地区之间的差异。
考虑到本课程的许多学员可能正考虑转向数据相关领域,我认为使用这个公开数据来探索你可能遇到的薪资水平会很有趣。
数据集内容概览
那么,我们将要使用的这个外籍劳工数据集具体是什么样的呢?
首先,需要说明的是,一个更完整的数据集已在“Jobs and Tech”网站上被整合并可搜索。为了本课程,我们从该网站2011年至2015年的数据中提取了一个子集,并包含了以下字段:
- 申请中的职位年薪:公司计划支付的年薪。
- 该职位在该申请中的现行年薪:市场平均年薪。
- 申请决定日期:政府做出审批决定的日期。
- 提交申请的公司。
- 工作所在城市。
- 申请人的国籍。
- 所申请的签证类型。
为了简化我们的分析,我们还增加了一个字段,该字段对职位名称进行了搜索,并将其分类到一个通用的“职位子类别”中。
对于最新的2015年数据,我们还额外提取了以下信息:
- 申请该职位所需的工作经验年限。
- 申请该职位所需的教育水平。
- 申请接收日期。
数据质量与使用注意事项
在解读数据含义时,必须考虑以下几点注意事项。
值得注意的是,数据集中存在许多不正确的条目。有些申请是针对兼职工作,而另一些则是全职。此外,部分薪资最初是以时薪、周薪或月薪的形式录入的,而非年薪。
因此,当我们从外籍劳工认证办公室网站获取这些数据时,它们相当混乱。你还应该知道,大量数据是缺失的,因此在我们即将使用的数据集中,这些缺失值仍然存在。
更重要的是,所有这些数字都不包含在原始申请提交后发生的奖金或加薪。所有这些因素在我们尝试解读数据意义时都应被纳入考量。
总结
本节课中,我们一起学习了美国外籍劳工薪资数据集。我们了解了它的官方来源(OFLC网站)、核心字段(如职位年薪、现行年薪、公司、地点等),以及它在分析职业薪资和地区差异方面的价值。同时,我们也重点认识了使用该数据时必须注意的数据质量问题,包括条目错误、兼职/全职混合、薪资单位不一致以及数据缺失等。

现在,您和数据已经正式认识了。接下来,让我们开始探索能从美国技术薪资数据中揭示出什么信息。
089:认识您的Dognition数据 🐕



在本节课中,我们将深入了解一个真实的商业数据集,它来自一家名为Dognition的公司。我们将探讨Dognition的业务模式、其收集的数据类型,以及他们希望通过数据分析解决的核心商业问题。
我们非常幸运,在本课程中能够使用来自真实商业环境的真实数据集。这家公司名为Dognition。今天,我们有幸邀请到Dognition的制作人Elliot Cohen,他将为我们介绍捐赠给我们的数据集。
Dognition是一个面向全球狗主人和爱狗人士的平台,旨在帮助他们更深入地了解自己的狗。该公司将世界各地犬类认知实验室中的科学游戏,分解成核心组成部分,并使用家庭中常见的物品进行了复现。然后,他们汇总了所有数据。目前已有超过3万名用户参与Dognition游戏。他们最近发表的首篇论文表明,其数据质量与实验室数据相当。


对于参与Dognition游戏的狗主人而言,他们能了解到许多关于自己爱犬的、原本可能不知道的信息。例如,游戏设计者Brian博士通过游戏发现,他的狗Tasmania并不像他预期的那样依赖记忆,而是更多地依赖他的指令。


Dognition游戏本身基于犬类智力的五个维度进行设计。这些维度是:共情、沟通、狡猾、记忆和推理。围绕这五个维度,共有20个游戏(实际上是10个核心游戏和10个热身游戏)。这些游戏贡献出各维度的得分,从而确定狗在特定维度(如记忆)中具体依赖哪些技能。基于这些结果,每只狗会被归入九种性格档案中的一种。
有趣的是,研究发现狗的品种对其最终的性格档案影响不大,关键在于个体狗解决问题的方式。
以下是用户登录网站后的体验概览。登录后,已完成所有测试的狗的主页会显示所有已完成的维度、下个月的推荐游戏、活动列表以及调查角。调查角包含约150个附加问题,用户很乐于回答关于自己狗的问题。报告部分则提供了长达15页的分析结果。
对于尚未完成测试的狗,主页会提示“接下来,玩游戏”,并列出需要按顺序完成的游戏。用户需要完成前一个维度的游戏,才能解锁下一个。
Dognition提供三种订阅模式:
- 核心Dognition评估:包含10个游戏和10个测试/热身,用于生成狗的Dognition性格档案。
- Dognition年度订阅:在完成核心评估后,用户可以在一年内每月解锁一个新的附加游戏和一项由专家设计的活动。
- Dognition月度订阅:提供类似的月度附加内容。
Dognition游戏被设计为按特定顺序进行:从共情开始,然后是沟通、狡猾、记忆,最后是推理。这样设计有两个原因:首先,共情游戏最简单,能帮助狗进入状态;其次,游戏难度会逐渐增加。公司曾尝试调整顺序(例如先进行记忆游戏),虽然初期完成率有所提升,但用户整体进度并未改善,且记忆游戏复杂的指令容易让狗和主人感到挫败。
现在,我们来探讨Dognition希望我们帮助解决的核心商业问题。Dognition作为一个产品和公司,主要分为两部分:面向公众的“宣传册”(网站非登录部分)和用户登录后的“产品本身”(游戏、与专家互动等)。Dognition面临一个有趣的问题:他们非常关心客户购买后的行为。公司不仅希望获得收入,更希望用户能充分使用产品并完成测试。因为如果用户不完成测试,公司只能获得少量数据,而Dognition的终极目标是通过数据发表论文、增进对狗的了解。因此,他们寻求的核心帮助是:找到方法提高用户的完成率,或至少推动他们在Dognition体验中走得更远。
在数据分析方面,Elliot给出了一个重要建议:每次测试都必须带着问题出发。你需要有一个可验证的假设,并明确知道如何测试它。盲目地查看数据要么会发现无关紧要的信息,要么一无所获。
例如,在“记忆 vs. 指向”游戏中,测试者将食物藏在两个杯子之一下面,然后指向没有食物的杯子。这个游戏旨在判断狗是依赖自己的记忆,还是更依赖主人的肢体暗示,并没有标准答案。
Dognition乐于分享数据参与本课程,源于其对教育的重视。在分享数据时,他们非常注重用户隐私,所有数据都经过匿名化处理,移除了任何可能识别个人身份的信息。
现在您已经了解了我们需要共同解决的商业问题。您可以访问课程网站,获取Elliot和Dognition慷慨捐赠的数据集中具体字段的更多详细信息。同时,也建议您浏览Dognition网站,这是一家非常酷的公司,相信您会更有动力去解决他们的商业问题。



本节课总结:我们一起认识了Dognition公司及其业务,了解了他们通过游戏收集犬类行为数据的模式,明确了他们“提高用户测试完成率”的核心商业诉求,并获得了“带着假设进行数据分析”的重要方法论指导。接下来,我们将开始深入探索具体的数据集。
090:我们的分析计划 📋

在本节中,我们将学习如何制定一个有效的分析计划,这是启动任何数据分析项目前不可或缺的第一步。
正如我们上周所学,我们永远不会在没有分析计划的情况下直接开始分析。一个清晰的计划能确保我们的分析工作有方向、有重点,避免在数据海洋中迷失。
制定分析计划
我已在课程网站上,为我们课程中使用的两个数据集,提供了我们将要遵循的分析计划初稿。这些计划是我使用网络上可以免费获取的思维导图软件制作的。
我之所以称它们为“初稿”,是因为在我们进行分析并不断获得新见解的过程中,计划本身也需要迭代和更新。
计划的动态调整
以下是分析计划在项目过程中可能发生的变化:
- 增加新内容:我们可能会增加新的假设或需要解决的问题。
- 删减旧内容:我们可能会移除那些我们认为不再相关或目前不知道如何回答的旧假设或问题。
你的参与至关重要
你是否认为我遗漏了某些问题或议题?如果是这样,请随时将它们添加到你自己版本的分析计划中。
在接下来的几周结束时,你将充满信心,确信自己知道如何解决你提出的任何问题。

本节课中,我们一起学习了制定分析计划的重要性。我们了解到,分析计划是一个动态的、可调整的路线图,它始于一个初稿,并会随着分析的深入而不断演进。通过积极参与并完善你自己的分析计划,你将逐步掌握系统化解决商业问题的核心能力。
091:数据相关职位薪资 - 您的第一个图表 📊

在本节课中,我们将学习如何使用 Tableau 创建您的第一个图表。我们将从准备数据集开始,逐步完成连接数据、调整变量、理解 Tableau 工作区,并最终生成一个关于不同数据相关职位薪资中位数的条形图。
准备数据与分析计划
现在我们已经有了数据集,制定了分析计划来回答问题,并且下载了 Tableau。我们准备好制作第一个图表了。
为了确保大家使用相同的数据集,请访问课程网站并下载名为 Sal data 的数据集。请将其保存到您电脑上方便查找的位置。
我将假设您与我同步进行练习来讲解这些视频,但您也可以先观看视频,稍后再自行练习。

启动 Tableau 并连接数据
首先,打开您的 Tableau 副本。打开后,界面将类似下图所示。


在 Tableau Desktop 左侧,您会看到一个区域,可以连接到不同的服务器或数据库,例如 MySQL、Oracle。点击“更多服务器”可以看到 Tableau 支持连接的长数据库列表。如果您使用的是 Tableau Public,则无法看到这些选项,因为它不能连接数据库。但幸运的是,Tableau 慷慨地为本课程所有学生提供了 Tableau Desktop 的密钥,因此您应该也能访问这些数据库。

今天我们不会连接数据库,而是连接一个 Excel 文件。请点击上方“连接到文件”并选择“Excel”。导航到您保存数据集的位置,点击 salary data 文件并打开。
首次连接时,尤其是在 Mac 上,可能需要一些时间。我们的数据集按 Excel 标准来说不算小,因此加载可能需要几秒、几十秒,在较慢的电脑上甚至可能长达一分钟。




检查与调整数据变量
数据加载完成后,您将看到一个类似下图的屏幕。下方列出了 Tableau 从数据集中自动解释的所有变量名称。



每个名称对应 Excel 文件标题行中的一列。Tableau 会自动对变量名称和类型进行分类,通过旁边的小图标表示。通常 Tableau 做得不错,但并非每次都完美。
例如,case received date 被识别为字符串(ABC 图标表示)。您可以点击它并将其更改为正确的类型,例如“日期”。对 decision date 进行同样的操作。




另一个例子是 prevailing we submitted,它应该是数字,但 Tableau 认为是字符串。我们可以将其更改为“数字(十进制)”。您可以对数据中的每个变量进行此类调整。在下一个屏幕中还有另一种方式可以完成此操作,因此我们现在先继续,稍后我会展示另一种方法。


当您认为变量已按所需方式命名和组织好后,请点击“立即更新”。您将开始看到数据加载轮,因为加载数据需要相当长的时间,尤其是第一次。
熟悉 Tableau 工作区
在数据加载时,我想为您介绍接下来将看到的屏幕。Tableau 是一个非常强大的程序,他们投入了大量精力来优化用户体验。因此,它拥有许多不同的功能,并且几乎每件事都有两到三种不同的操作方法。

遗憾的是(或者说幸运的是,取决于您如何看待),我没有时间向您展示所有操作方法。事实上,我认为几乎不可能有人全部掌握。这就是为什么人们每年都参加 Tableau 会议以了解最新功能。
我的策略是通过练习向您展示作为商业分析师需要了解的最重要内容。在过程中,我会尽可能多地展示技巧、窍门和选项。但我鼓励您也自行探索数据和 Tableau。熟悉程序所有细节的最佳方式是自己去发现。此外,这也是练习数据分析师所需的好奇心和无畏精神的好时机。每当您不知道如何做某事时,练习自己查找并证明自己能够解决,这种无畏精神对数据分析师来说非常宝贵。
这是您在 Tableau 中打开工作区时看到的内容。让我为您介绍一下屏幕布局。

左侧是所有变量的位置。Tableau 根据“度量”和“维度”对它们进行划分。度量基本上是连续变量,维度是离散或分类变量。请记住,我在课程一开始的提示中告诉过您,有些变量既可以是连续的也可以是离散的。在这种情况下,您需要根据分析选择将其定义为度量或维度。在 Tableau 中更改这一点实际上非常容易。
您可能想要这样做的另一个原因是 Tableau 错误地将变量分配为维度或度量。这里就有两个例子:我们数据集中将要查看的两个主要变量是 prevailing wage per year 和 paid wage per year。它们实际上都是连续的,即都是度量,但 Tableau 认为它们是维度。要更改这一点非常简单,只需点击并向下拖动即可。另一种方法是点击下拉菜单并选择“转换为度量”,效果相同。
我想向您展示该下拉菜单的其他几个功能。您可以在此处重命名变量或复制它,但这也是更改数据类型的地方。记得我在上一个屏幕中提到,在工作区中也有地方可以操作。例如,变量 experience required(所需经验月数)被 Tableau 认为是字符串,但它实际上是数字。在这里,我可以像导入数据时那样将其更改为“数字”。
我想向您展示变量列中的另一个小功能:这个小放大镜图标。当您有很多列且难以导航时,这是一种搜索所有变量的方式,您可以输入内容直接定位。
上方是一个工具栏。这里有很多有趣的东西,我鼓励您探索。现在我要指出的主要几个是:这个非常重要的“撤销”按钮,您会经常用到它。另一个重要的图标是一个带 X 的图表,用于“清除工作表”,即完全清空工作区。上方是更大的工具栏或功能区,这里也有很多有趣的东西。我们将主要关注“分析”选项卡,稍后会用到,但请注意您现在看到“聚合度量”的地方,我们会经常使用它。还有“格式”菜单。这是功能冗余的一个例子,或者说提供了另一种操作方式。此列表中的几乎所有操作都可以通过在工作区中右键单击来完成,但知道它在这里也很好。
理解工作区布局
现在看下方的工作区,也就是整个这个区域。这边的东西称为“卡片”,有“标记”卡、“筛选器”卡和“页面”卡。
这些行称为“架子”。这个是“行”架子,您将在这里告诉 Tableau 如何处理数据的行,即如何对它们进行聚合。还有一个“列”架子,您将在这里向 Tableau 展示如何拆分数据以及放入哪些类别。
这边是“显示我”卡,它为您提供了所有不同的可能选项,即您可以在工作区中表示数据的各种方式。它会自动告诉您适合您数据的图表类型。当选项呈灰色时,您无法使用它们,因为 Tableau 希望确保您只使用最佳实践。当选项未呈灰色时,它允许您制作它们。我们稍后会更多地介绍这个。


构建第一个图表
我们的第一个问题是:在不同的数据相关工作中,我们可能赚多少钱?

对于这个问题,我们的因变量(即我们最感兴趣并希望聚合的数据行)是 paid wage per year。我们的自变量是 job title subgroup。请记住,我告诉过您,我们的课程助理非常友好地审查了所有职位申请标题,并将它们归入我们可能感兴趣的亚组中。幸运的是,这部分分析已经完成了。
既然我们知道了因变量和自变量,我们就可以制作第一个图表了。请深呼吸,不要走神,因为如果您走神,可能会错过这一步。
现在,为了将 paid wage per year 放入行架子,您可以双击它或拖动它。




然后将 job title subgroup 放入列架子,同样可以拖动或双击。

完成! 您已经创建了第一个图表。真的就是这么简单快捷,比 Excel 快得多。




调整聚合方式与解读图表
现在我想引导您注意这个坐标轴。如果您仔细观察,会发现 paid wage per year 显示的是数十亿的极高数字。不幸的是,我们在任何数据相关工作中都赚不到数十亿美元。那么这里发生了什么?
为了向您展示,我们需要查看行架子和列架子。我还想向您指出这些蓝色和绿色的小矩形状的东西,Tableau 称之为“药丸”。绿色的代表度量,蓝色的代表维度。这是跟踪 Tableau 如何识别变量的好方法。
现在,在行架子上,您会看到它写着“总和”,然后括号里是 paid wage per year。请记住,当我们将这个变量拖到这个架子上时,我们是在告诉 Tableau:我们希望您查看这些数据行,并希望您根据不同的 job title subgroup 来拆分它们。但我们必须告诉 Tableau,我们希望它如何处理这些不同亚组内的所有行。目前,它自动认为我们希望将它们相加或求和。实际上,我们想知道的是类似平均值的东西。
要更改这一点,请点击此下拉菜单。您会看到它显示“度量”被处理为“总和”,并且“总和”旁边有勾选。如果我们想将其更改为平均值或中位数,只需点击“平均值”或“中位数”即可。我的偏好始终是中位数,尤其是在您不知道数据分布的情况下。所以让我们选择“中位数”。

现在再看坐标轴,您会发现数字变成了数万,这更准确,更能代表我们在这些工作中真正能赚到的钱。
总结
恭喜!🎉 您已经在 Tableau 中制作了第一个图表。



在本节课中,我们一起学习了如何将 Excel 数据连接到 Tableau,检查和调整变量类型,熟悉 Tableau 工作区的基本布局(包括维度、度量、架子和卡片),并通过简单的拖放操作创建了一个条形图。最关键的一步是理解并正确设置聚合方式(例如将默认的“总和”改为“中位数”),以确保图表反映有意义的业务洞察。这个简单的流程是后续所有复杂分析的基础。
092:格式化并导出您的第一个图表 📊

在本节课中,我们将学习如何在 Tableau 中格式化图表,使其更美观、更易读,并掌握将最终图表导出为图像或 PDF 文件的方法。这些技能对于将分析结果应用于实际业务场景至关重要。
上一节我们学习了如何创建基本的条形图。本节中,我们来看看如何调整图表的格式以满足展示需求。
创建练习图表
首先,我们重新创建上一节练习中使用的图表。
- 将
paid wage per year字段拖放至“行”功能区。 - 将
paid job title subgroup字段拖放至“列”功能区。 - 由于默认聚合方式为求和,需将其更改为中位数。点击“行”功能区上的
SUM(paid wage per year)下拉菜单,选择“度量(合计)” -> “中位数”。

现在,我们得到了与之前完全相同的图表。

调整图表排序
您可能不希望子类别按照当前默认顺序排列。一个快速调整排序的方法是使用“快速排序”按钮。
- 将鼠标悬停在横轴(或纵轴,取决于图表方向)上,会看到一个类似带箭头的小图标的按钮。
- 点击一次,条形将按数值从高到低排序。
- 点击两次,条形将按数值从低到高排序。
- 点击三次,将恢复为从工作表直接生成时的原始顺序。


更改图表方向
为了便于阅读较长的标签,可以将垂直条形图转换为水平条形图。
- 在工具栏上找到一个类似倒置“L”形状的按钮,其提示为“交换”。
- 点击此按钮,图表将立即变为水平条形图。
调整文本格式
图表中的文本可能较小,需要进行调整。有两种主要方法可以修改字体大小。


方法一:右键菜单
- 右键点击坐标轴文本。
- 选择“格式”。
- 在侧边出现的格式面板中,可以更改字体、大小等。例如,将大小改为12。
方法二:顶部菜单
- 点击顶部菜单栏的“格式”。
- 选择“字体”,然后进行修改。
调整文本大小后,有时所有内容无法完全显示。此时可以调整坐标轴区域的大小。
- 点击包含坐标轴标签的整个区域。
- 将鼠标悬停在边缘,会出现一个双向箭头图标。
- 点击并拖动即可调整该区域的大小。
您可以对“行”功能区的字段标签进行同样的格式调整。
自定义颜色与大小
接下来,我们通过“标记”卡自定义图表的外观。
- 更改颜色:点击“标记”卡中的“颜色”按钮,可以为条形选择新的颜色,例如红色。
- 调整条形大小:使用“标记”卡中的“大小”滑块,可以调整条形的宽度。向左滑动使条形变细(增加空白),向右滑动使条形变粗(减少空白)。
- 添加数据标签:点击“标记”卡中的“标签”按钮,并勾选“显示标记标签”,即可在条形上显示具体数值。
添加标题与说明
默认情况下,图表使用工作表的名称作为标题。要添加或修改标题:
- 在图表区域的空白处右键点击。
- 在菜单中,选择“标题” -> “编辑标题”。
- 此时会出现标题编辑框,双击即可输入自定义标题,例如“各职位子类别的年薪中位数”。
请注意,在工作表视图下,标题可能不会直接显示,但在导出时会包含。


您还可以添加图注,为观众提供额外信息。
- 右键点击图表区域。
- 选择“标题” -> “编辑说明”。
- 在说明编辑框中,可以输入文字,例如“数据来源:公司人力资源数据库”。
导出图表
格式化完成后,有两种主要方式可以将图表导出,以便与他人分享。
方法一:导出为图像
- 点击顶部菜单栏的“工作表”。
- 选择“导出” -> “图像”。
- 在弹出的对话框中,可以选择是否在导出的图像中包含标题、说明和图例。
- 确保勾选所需选项后,点击“保存”,选择保存位置并命名文件。


方法二:打印为PDF
- 点击顶部菜单栏的“文件”。
- 选择“打印”。
- 在打印设置中,将目标打印机选择为“另存为PDF”。
- 点击“打印”按钮,系统会将其保存为PDF文件到默认位置。

本节课中我们一起学习了如何格式化 Tableau 图表,包括调整排序、方向、文本、颜色和大小,以及如何添加标题和说明。最后,我们掌握了两种导出图表(图像和PDF)的方法。现在,您已经掌握了在 Tableau 中打开数据、创建图表、格式化并导出的完整流程,正稳步成为一名 Tableau 分析专家。
093:深入探索-使用行与列货架 📊

在本节课中,我们将学习如何在 Tableau 中通过将多个变量放入行或列货架来深入探索数据。我们将测试一个关于签证类型是否影响薪资的假设,并在此过程中掌握获取数据细节、检查数据分布以及高效保存工作的方法。
回顾与准备

上一节我们了解了不同数据相关领域的薪资概况。本节中,我们来看看签证类型是否会影响这些薪资。
我们的假设是:由于绿卡赞助成本更高,公司可能赞助更少,但对获得绿卡赞助的人要求也更高,因此他们的薪资可能也更高。让我们在数据中测试这个假设。
构建基础图表
首先,我们最后一次创建与上节课相同的图表。这次,我们学习一个额外技巧:设置默认聚合方式。


- 在“数据”窗格中,找到“Paid Wage Per Year”变量。
- 点击下拉箭头,选择“默认属性”。
- 在“聚合”选项中,将默认值从“总和”改为“中位数”。
现在,将“Paid Wage Per Year”拖到行功能区,它会自动显示为中位数。接着,将“Job Title Subgroup”拖到列功能区,并使用“快速排序”按钮排序。这样我们就得到了与之前相同的中位数薪资图表。
为了方便管理,我们将工作表重命名为“Median Wage For Subgroup”。
使用多个变量进行分析
现在,我们想看看每个职位子类别中,不同签证类型的薪资有何不同。变量“Visa Class”代表签证类别。
以下是分解这些条形图的方法:
- 将“Visa Class”变量拖到列功能区,放在“Job Title Subgroup”的后面。
- 图表会立即将每个职位子类别的条形图按不同签证类型分解开。
这展示了 Tableau 快速生成可视化分析的能力。如果我们交换两个变量的顺序,将“Job Title Subgroup”拖到“Visa Class”后面,那么主要分类将变成签证类型,每个签证类型下再分解出职位子类别。
观察数据后,我们的假设似乎并不成立。律师的薪资在大多数签证类别中都是最高或非常高的,教师通常最低。不同签证类别之间没有明显的规律。
深入查看数据细节
如果对初步观察不满意,可以深入查看数据细节。
- 悬停查看:将鼠标悬停在任意条形上,会显示该条形的具体数值。
- 查看底层数据:右键点击条形,选择“查看数据”。在“摘要”标签页可以看到汇总值;切换到“完整数据”标签页,可以查看用于计算该条形图中位数的所有原始数据行。你可以在此取消勾选以仅显示特定字段。
在浏览底层数据时,你可能会注意到一些有趣的模式,例如某个签证类别下申请工作地点集中在纽约。这可以作为后续分析的线索。同时,注意角落显示的记录数,它告诉你构成该条形图的数据行有多少。
利用“标记”卡添加信息
有一种更快的方法来了解每个条形包含多少条记录,即使用“记录数”这个 Tableau 自动生成的度量。
- 将“记录数”拖到行功能区,放在“Paid Wage Per Year”后面。Tableau 会自动在图表下方生成一个新图形,显示每个条形对应的记录数。
- 此时,当你将鼠标悬停在顶部的薪资条形上时,工具提示中也会包含记录数信息。
即使不想在图表上显示记录数图形,也可以将其信息添加到工具提示中:
- 将“记录数”从行功能区拖走。
- 将“记录数”拖到“标记”卡上的“详细信息”按钮(图标类似一个加号)上。
- 现在,“记录数”虽未形成图形,但当你悬停在薪资条形上时,工具提示中已包含此项信息。
“详细信息”按钮是“标记”卡的一个功能,它允许你在不改变图表视觉形式的情况下,为数据点添加更多背景信息。
分析数据变异性(标准差)
为了了解每个类别内薪资的波动情况,从而评估中位数的可靠性,我们可以计算标准差。标准差是衡量数据分布离散程度的指标。
以下是计算步骤:
- 将“Paid Wage Per Year”再次拖到行功能区。
- 点击该胶囊的下拉箭头,将聚合方式改为“标准差”。
- 你会看到两种标准差:“标准差(总体)”和“标准差”。前者用于描述你手头这个特定数据集(或认为能完美代表总体的大样本)的离散程度;后者用于将当前样本视为对更大总体的估计时,更稳妥。由于我们希望将数据推论到自身(我们并不在数据集中),因此选择使用普通的“标准差”。
现在,图表下方会显示每个条形对应的薪资标准差。如果某个标准差非常大(如图中某些情况),通常意味着数据中存在极端异常值。这些异常值可能会显著影响平均值和标准差等统计量。因此,我们需要将“检查异常值”添加到分析计划中。
快速操作与保存工作
最后,介绍两个实用技巧:
- 快速移动胶囊:按住 Shift 键,可以将行功能区上的“Paid Wage Per Year(标准差)”胶囊直接拖到“标记”卡的“详细信息”上。这样图表消失,但工具提示中仍会保留标准差信息。
- 保存工作簿:无需每次重新制作图表。点击“文件”->“另存为”,选择保存为“Tableau 工作簿”(.twbx 文件)。这样,下次打开时,所有图表和分析状态都将保留。
总结
本节课中我们一起学习了以下内容:

- 数据分析发现:在我们分析的数据集中,申请的签证类型可能不会对不同职位子类别的薪资产生显著影响。因此,在后续分析中,我们可以暂时不再重点关注“Visa Class”。
- Tableau 技能提升:
- 我们掌握了在列货架或行货架中放入多个变量时,图表会如何分层和分组。
- 我们学会了使用工具提示和“查看数据”功能来获取数据点的详细信息。
- 我们了解了如何通过“标记”卡的“详细信息”按钮,在不添加图形元素的情况下丰富工具提示内容。
- 我们学习了计算和解读标准差,以评估数据分布的离散程度并警惕异常值。
- 我们掌握了快速操作胶囊以及保存 Tableau 工作簿以保留工作进度的方法。
通过这些技能,你可以更高效、更深入地在 Tableau 中探索和呈现数据。
094:理解标记卡 📊

在本节课中,我们将深入学习 Tableau 中的“标记卡”。我们将通过创建和修改气泡图等图表,来探索标记卡如何控制图表的外观、颜色、大小和标签。理解标记卡是掌握 Tableau 高级可视化功能的关键。
标记卡简介
上一节我们介绍了如何构建基本图表。本节中,我们来看看 Tableau 界面中一个功能强大但可能有些复杂的部分——标记卡。
到目前为止,我们在本课程中已经使用过两次标记卡。第一次是用它来更改条形图的格式。第二次是用它来更改当鼠标悬停在条形上时,工具提示中显示的详细信息级别。这让你对标记卡功能的广泛性有了一定了解。
标记卡的功能实际上很难一言以蔽之。它最初可能被设计用于处理简单的格式设置。但随着 Tableau 变得越来越复杂,程序员似乎将许多无法放入“列”或“行”功能区处理的功能都整合到了标记卡中。因此,它能实现一些非常酷的效果,但这些效果有时可能不太直观。

可以说,标记卡通常有两个主要功能。首先,在任何使用面积来表示数据的图表中(例如饼图或气泡图),标记卡允许你定义哪个变量与这个面积相关联。其次,标记卡通常用于定义所有无法在“行”或“列”功能区中定义的内容。
在本视频中,我们将使用一种我不太推荐经常使用的可视化类型。但我们将用它来回答与上一个视频相同的问题,目的是让你更好地理解标记卡的工作原理。一旦你熟悉了它,就能更好地理解后续视频中我们将要做的更奇特、更复杂的操作。
创建气泡图
让我们开始实践。请打开上次创建的 Tableau 文件,并新建一个工作表。我们可能不会保存这个工作表,但会用它来进行探索。
首先,我们创建之前做过的图表:将“年薪中位数”放在行上,将“职位子组”放在列上。这是我们之前的条形图。
接下来,我将展示如何将其转换为气泡图。请找到“显示卡”,滚动到底部,你会看到“填充气泡图”选项,点击它。现在,之前用条形表示的相同数据,在这个气泡图中以气泡大小来呈现。


这里有几个有趣的地方需要注意。首先,你会看到“列”和“行”功能区上没有任何字段了。它们现在都位于标记卡上。这就是为什么我使用这种特定的可视化来帮助我们理解标记卡的工作原理。
你会看到“年薪中位数”旁边有一个尺寸图标,这表示它正通过尺寸进行编码。这就是为什么每个气泡的大小代表了该特定类别的年薪中位数。同时,“职位子组”出现在标记卡的两个不同位置:它既在标签属性上(左侧有标签图标),也在颜色属性上(旁边有颜色图标)。这意味着“职位子组”被用于这些气泡的标签,同时也用于颜色编码。
探索标记卡属性
为了让你感受这是如何工作的,我们来看看如果从标记卡的颜色属性中移除“职位子组”会发生什么。只需将其拖走。现在,虽然每个子类别的标签仍然保留,但所有气泡都变成了同一种颜色。
现在,让我们猜一下,如果我将“职位子组”也从标记卡上完全移除,会发生什么?让我们看看。这有点像一个陷阱问题。现在图表显示的是整个数据集的年薪中位数,因为工作区中没有其他任何东西将数据集划分开来。所以,这是整个工作表的年薪中位数。
让我们从头开始,看看是否能从零开始重新创建那个气泡图。使用我之前展示过的“清除工作表”图标,它会完全清空我们的工作表。
让我们尝试一下。首先,再次将“年薪中位数”放到行上。现在,将“职位子组”放到颜色上,因为这应该会按颜色对数据进行编码。为什么这看起来不像之前的气泡图?它似乎确实按颜色编码了“职位子组”,但没有将其变成气泡图。这是因为只要“年薪中位数”还在行上,它就不是通过面积进行编码的。而气泡图的要点正是通过面积来编码那个变量。
改变这一点的方法是将这个变量移动到“大小”属性上。要做到这一点,你必须使用我之前告诉你的技巧:按住 Shift 键,然后拖动这个字段直接放到标记卡的“大小”属性上。
现在这很有趣。它似乎按大小对每个“职位子组”进行颜色编码。你可以看到最大的那个是130000,这个是110000。但为什么是方块?为什么它看起来像是用方块表示的?这是因为当前的标记被编码为方块。如果你点击这个下拉菜单,它会提供许多不同类型的标记。每种标记的功能略有不同,并非所有标记都是平等的。这似乎是许多不同功能被集中在一个地方的例子,尽管它们并不完全相同。
将这个方块树状图变成气泡图的简单方法是将标记从“方形”改为“圆形”。点击“圆形”,现在你会看到我们得到了与之前非常相似的东西。为了完全重现,我们必须将“职位子组”也放到标记卡的“标签”属性上。现在,这就完全重现了我们之前看到的内容:你可以看到“职位子组”同时位于颜色属性和标签属性上,而“年薪中位数”则通过圆形标记的大小进行编码。
结合多变量分析
让我们再做一次练习,将我们从上一个视频学到的内容与这个视频的内容结合起来。
当我们将“签证类别”放到列上时,我们现在将制作5种不同类型的气泡图,每种对应一个不同的签证类别。你认为如果我把“签证类别”放到颜色上会发生什么?让我们看看会发生什么。将“签证类别”直接拖到颜色属性下。
现在,由于列或行功能区上没有其他东西根据“签证类别”来划分所有数据,数据只根据颜色进行划分。你可以看到“职位子组”被从颜色属性上挤掉了。这是因为至少在这种标准操作方式下,同一时间只能有一个变量在颜色属性上。所以,这个图表通过颜色编码“签证类别”,通过气泡大小编码“年薪中位数”,并通过标签编码“职位子组”。
你可能会注意到,如果标签太大而无法在区域内显示,Tableau 会自动将其关闭。这是面积图的缺点之一:除了更难检测不同面积之间的差异外,还更难确保标签始终显示。你可以通过选择所有数据,然后右键单击,进入“标记标签”并点击“始终显示”来尽力修复这个问题。
深入探索标记卡功能
我想再做一次练习,更深入地展示标记卡的功能。
上次,我们直接将“签证类别”拖到颜色上,得到了类似这样的图表。这次,请按住 Shift 键,然后将“签证类别”拖到颜色属性上。现在,你会看到非常不同的东西。它看起来很漂亮,有很多颜色,但不太清楚所有这些颜色代表什么。
要弄清楚这一点,可以查看图例。如果你上下滚动,你会看到 Tableau 为每个“职位子组”创建了一类颜色,然后为每个“签证类别”创建了该类颜色的不同深浅。例如,所有蓝色代表助理教授,而每个签证类别在该蓝色系中都有不同的深浅。
即使只看一两秒,你也能开始明白为什么这种表示方式传达信息的效果不佳,而且容易造成混淆。因为通常,如果你有一个像这样的颜色条,或者一种颜色的不同深浅,它通常代表一个连续变量,而在这里,Tableau 用它来代表一个分类变量。因此,就可视化实践而言,这个图表可以说是相当糟糕的。
尽管如此,我们使用它是因为它能让你很好地理解标记卡的工作原理。基本上,它就像“列”和“行”功能区一样工作,但针对的是颜色和大小。

关于可视化最佳实践的说明
刚才我反复展示了一个例子,并说我们制作的可视化并不符合最佳实践。我也意识到,在课程开始时我曾说过 Tableau 被设计为只允许最佳实践。我意识到这里存在矛盾。这是因为我在给 Tableau 留有余地。
Tableau 在设计时,其初衷是不允许任何人实施不利于信息传达的内容。然而,随着 Tableau 越来越受欢迎,它在客户的压力下做出了一些妥协。客户对 Tableau 的要求越来越多,要求允许他们做一些事情,即使 Tableau 的创建者知道这对信息传达无益。他们必须听从客户的意见。所以,我刚才展示的例子就是一个例证,说明了如何可能做出这种美观但不太有用的可视化,而 Tableau 仍然允许你这样做。他们仍在努力引导用户使用最佳实践,但也不得不满足客户的需求。
总结
本节课中,我们一起学习了 Tableau 中标记卡的核心功能。我们通过创建气泡图,探索了如何利用标记卡控制数据的视觉编码方式,包括颜色、大小、标签和标记类型。我们了解到,标记卡是一个多功能区域,用于处理所有无法在“行”或“列”功能区定义的可视化属性。虽然强大的功能允许创建复杂的图表,但我们必须始终牢记可视化最佳实践,以确保图表能清晰、有效地传达信息。对标记卡的深入理解,将为我们后续学习更复杂和高级的 Tableau 技巧打下坚实的基础。
095:通过散点图、筛选和分组移除异常值 📊

在本节课中,我们将学习如何使用 Tableau 的散点图功能来识别数据集中的异常值。我们还将掌握两种处理这些异常值的关键技巧:应用筛选器和创建数据分组。这些技能对于清理数据、聚焦核心趋势至关重要。


在之前的课程中,我们已将“检查异常值”纳入数据分析计划。最快捷的方法是创建散点图,并通过目视检查是否存在明显偏离的数据点。本节我们将学习如何操作,并首次接触添加筛选器和创建分组。
首先,打开你的 Tableau 工作簿,并定位到我们之前创建的“各子组年薪中位数”图表。

为了保留原始图表,我们需要复制一个工作表副本。


将新工作表重命名为“检查异常值”。

在制作散点图之前,我们先回顾一下寻找异常值的原因。让我们再次查看标准差。
将“年薪”字段拖到“行”功能区,并将其计算类型改为“标准差”。为了更清晰地观察,我们将标记类型从“条形图”改为“形状”。
此时可以看到,“律师”子组的标准差远高于其他组,表明该组可能存在极端异常值。
现在,移除“年薪”字段,开始制作散点图。制作前,请注意视图左下角显示有“8 个标记”,这代表我们数据中的 8 个子类别。
要创建散点图,需要取消数据的聚合。操作路径是:点击顶部菜单栏的“分析” -> 取消勾选“聚合度量”。

取消聚合后,视图会为数据集中的每一行数据都显示一个单独的点。

为了让视图更易读,我们可以使用“标记”卡调整点的大小和形状,例如将其改为空心圆并调小尺寸。
正如根据标准差的预测,“律师”子类别中确实存在极高的异常值。其他子类别虽有一些高值,但相对合理。我们可以通过之前学过的技巧进一步查看这些异常点的详细信息。
右键点击异常数据点,选择“查看数据”。可以看到,其中两个申请的提交日期相同。滚动查看底层数据会发现,五个异常值中有四个来自同一家律师事务所。这可能意味着该律所确实支付高薪,也可能表明其提交签证申请时 consistently 存在错误。
接下来,我们学习两种在分析中排除这些异常值的方法。


第一种方法是使用筛选器。 筛选器就像一个漏斗,可以按条件包含或排除数据。例如,我们可能认为年薪超过 150 万美元的数据不真实,希望将其过滤掉。
操作步骤如下:将“年薪”字段拖到“筛选器”卡上。在弹出的对话框中,设置范围从最小值到 150 万。你可以拖动滑块或直接输入数值。


点击“确定”后,坐标轴不再显示高于 150 万的值,视图左下角的标记总数也会减少。你还可以右键点击筛选器胶囊,选择“显示快速筛选器”,以动态调整筛选范围。


重要提示: 务必留意是否有筛选器生效。即使隐藏了筛选器卡,筛选条件依然存在。要彻底移除筛选,必须将其从“筛选器”卡上拖走。

第二种方法是将异常值分组。 这允许我们将它们标记为一个独立的组(例如“异常值组”)以便后续对比分析。
在分组前,需要确保 Tableau 能识别每个独立的数据点。为此,将“案例编号”字段拖到“标记”卡的“详细信息”属性上。这样,每个数据点都有了唯一标识。


现在,按住 Ctrl 键(或使用套索工具)选中散点图中的异常值点。右键点击,选择“组”(或点击标记旁的纸夹图标)。

在弹出的分组对话框中,这次我们基于“案例编号”进行分组,而不是“职位子组”。这样,只有选中的特定点会被归为一组,其余数据点则归入“其他”组。
分组完成后,Tableau 会自动用颜色区分组内(蓝色)和组外(灰色)数据。同时,在左侧数据窗格的“案例编号”下,会生成一个名为“案例编号(组)”的新变量。
这个分组变量可以像其他变量一样使用。例如,可以将其拖到“筛选器”卡上,并通过快速筛选器选择查看“所有数据”、“仅异常值组”或“排除异常值组”的数据。

这个分组在后续分析中非常有用。例如,我们可以单独分析异常值组的教育背景、工作经验等属性。
为了演示,我们将“年薪”拖到“行”,将“职位子组”拖到“筛选器”并仅选择“律师”。然后,将新建的“案例编号(组)”变量拖到“列”。

现在视图被分为两列:一列显示异常值组的律师数据,另一列显示其他律师的数据。这便于我们对比两组在年薪或其他维度上的差异。
本节课总结


在本节课中,我们一起学习了:
- 创建散点图:通过取消“聚合度量”来可视化每个数据点,从而识别异常值。
- 应用筛选器:通过数值范围筛选,快速排除或聚焦特定区间的数据。
- 创建数据分组:通过选择特定数据点并基于唯一标识符(如案例编号)进行分组,从而创建可重用的数据子集,用于深入的对比分析。
现在你已经掌握了使用筛选器和分组来处理异常值的技能,这为我们回答下一个数据分析问题——“在不同地区,数据分析相关领域的薪资是否会变化?”——做好了准备。让我们在接下来的课程中继续探索。
096:利用筛选和分组分析各州数据相关薪资 📊

在本节课中,我们将学习如何使用 Tableau 的筛选和分组功能,来分析不同地理位置(美国各州)对数据分析相关职位薪资的影响。我们将处理数据中的不一致问题(如州名全称与缩写),并通过可视化比较目标州的薪资差异。
概述
我们的数据分析计划中的下一个问题是:如果我工作地点位于美国的不同地区,我在不同数据分析相关工作中的薪资是否可能发生变化?提出这个问题的原因可能是,你只愿意搬迁到国内的某些特定区域。事实上,许多对数据分析工作感兴趣的人只愿意搬到他们认为科技产业非常发达的地区。


本次分析,我们假设你只对搬到以下地区感兴趣:加利福尼亚州、华盛顿州、北卡罗来纳州、科罗拉多州、德克萨斯州、纽约州、马萨诸塞州、阿拉巴马州。同时,我们将缅因州作为对照,即我们认为高科技产业不发达的地区。
应用筛选器
在上一节我们学习了基础操作,现在可以开始应用筛选器。让我们打开 Tableau 工作簿,并准备筛选器。
首先,创建一个新的工作表。然后,将“工作州”维度拖放到“筛选器”区域。
这时会立即出现一个筛选器图形界面。需要指出的是,这与连续变量的筛选器不同。在这里,你可以点击特定的类别,而不是操作滑块。我们现在不深入讨论其他类型,但需要知道筛选器也可以使用通配符、条件或查看前N项(如前10名)等功能。目前,我们专注于“常规”筛选。
筛选器显示了数据集中所有不同的州。但滚动查看时,很快会发现一个问题:数据集中,有时州名使用全称,有时使用缩写。这就是现实世界中的数据——它通常是混乱的,处理起来并不总是那么明确。
创建分组解决问题
幸运的是,Tableau 有一个很棒的功能可以解决这个问题,即“分组”功能。
以下是创建分组的步骤:
- 右键单击“工作州”维度。
- 在下拉菜单中选择“创建” -> “组”。
- 在弹出的窗口中,会显示州列中的所有不同条目。
- 你可以点击不同的条目(例如 “CA”, “California”),然后点击“分组”按钮将它们合并。
- 将合并后的组重命名为统一的名称,例如 “california”。
- 为你提到的所有州重复此操作。
完成所有分组创建后,在这个窗口中还有一件重要的事情:请勾选“包含‘其他’”选项。这样做的目的是将所有未放入特定分组中的条目归入一个名为“其他”的类别。这将使你后续的筛选工作变得更加容易。
设置完成后,点击“确定”。现在,查看你的维度列表,会发现一个新的变量“工作州(组)”。将这个分组变量拖放到筛选器中。
在筛选器界面,你可以逐个点击选择感兴趣的州,或者选择“其他”并点击“排除”。这样,视图将只显示你关注的州的数据。
构建可视化图表
现在,让我们来回答我们的问题。将“年薪”度量拖放到“行”功能区。将“职位标题子组”维度拖放到“列”功能区。
当然,我们希望根据这些职位所在的州来进一步细分。因此,将我们新建的“工作州(组)”变量拖放到“列”功能区,放在“职位标题子组”的后面。
为了让图表更易于观察,我们可能希望每个职业子组用一种颜色突出显示。因此,也可以将“职位标题子组”拖放到“颜色”标记卡上。
现在,每个子组在视觉上更加突出。浏览图表可以发现,不同职业的薪资变化模式不同。例如,助理教授的薪资似乎不随州的变化而有太大变动,但在数据分析相关工作中,薪资则因州而异。
调整图例顺序
为了让视图更清晰,我想介绍另一个关于排序的功能。你可以使用图例来改变各个子类别在图表中显示的顺序。
操作方法是:
- 点击并拖动图例中的项目。
- 例如,如果我们希望“数据科学家”排在第一位,可以点击它并将其拖到图例顶部。
- 接着可以排列“软件工程师”、“数据分析师”、“商业分析师”等。
调整后,数据科学家将首先显示,其次是软件工程师,依此类推。
观察我们的数据,在数据科学家角色中,有四个州的薪资似乎更高:加利福尼亚州、马萨诸塞州、纽约州和华盛顿州。尽管有些难以看清,但同样的四个州在软件工程师角色中也较为突出。而在数据分析师和商业分析师角色中,各州的薪资似乎相当稳定(这是绝对薪资值)。这非常有趣,似乎在技术性更强的工作中,某些州会支付更高的薪水,这一点值得我们未来注意。
动态添加新的对比组
如果你想查看之前未考虑的其他州(例如新罕布什尔州)进行对比,该怎么办?你可以轻松地编辑分组。
以下是步骤:
- 右键单击“工作州(组)”变量,选择“编辑组”。
- 在分组编辑窗口中,找到“其他”类别。
- 向下滚动,找到“New Hampshire”,选中它。
- 点击“分组”按钮,然后可以重命名这个新组。
- 点击“确定”。
现在,如果你在筛选器上显示快速筛选控件,可以看到新罕布什尔州也已被列出。回到图表中,你会发现只要有来自新罕布什尔州的数据,它就会被添加进来。例如,在数据分析师类别中,新罕布什尔州的表现实际上相当不错。
关于高级排序的说明
观察这个图表,你可能会想:如果能根据每个职位子组中薪资最高的州来排序条形图,那将非常有用。例如,让数据科学家类别中,第一列是薪资最高的州,第二列是第二高的州,以此类推,并且希望对每个职位类别都进行这样的排序。
这确实是一个有用的想法。然而,如果你点击排序按钮,会发现结果并非完全如你所愿。Tableau 会以某种方式排序,但不是你期望的那种方式。其原因有些复杂。因此,我们将在下一个模块中学习如何实现这种类型的排序。
总结

本节课中,我们一起学习了如何利用 Tableau 的筛选和分组功能来分析地理位置对薪资的影响。我们处理了原始数据中州名不一致的问题,创建了统一的分组,并通过条形图可视化了不同州在不同数据分析职位上的薪资差异。我们发现,对于技术性更强的职位(如数据科学家、软件工程师),特定州(如加州、纽约州等)的薪资明显更高。同时,我们也掌握了如何动态编辑分组以纳入新的对比项。这些技能对于进行清晰、有效的数据比较至关重要。
097:何时使用折线图 📈


在本节课中,我们将学习如何创建折线图,并深入探讨在何种情况下使用折线图是最佳选择。
概述
折线图是数据可视化中一种强大的工具,尤其擅长展示数据随时间变化的趋势或两个连续变量之间的关系。本节我们将对比折线图与条形图的应用场景,并解释在Tableau中如何处理日期数据以创建有效的折线图。
折线图的适用场景
折线图最适合传达两类信息。
第一类信息是展示事物如何随时间变化。我们很自然地将时间的流逝想象成一条线或一支箭。因此,与这种概念一致的折线图,通常比将时间分割成块的条形图更容易被我们的大脑处理。
第二类信息是展示两个连续变量之间的关联程度。当我们想观察两个变量如何相关时,看到的数据点越多越好,因为额外的细节能让我们更清楚地看到一个变量的变化如何与另一个变量的变化同步。
Tableau中的日期处理
Tableau的一个有趣特性是,它可以将日期视为连续变量(称为“度量”)或离散变量(称为“维度”)。
将日期视为连续变量
当您将日期视为连续变量时,Tableau会将日期解释为一条连续线上的单个值。因此,当您想应用一种称为“回归”的统计方法来计算日期与另一个关注变量之间的最佳拟合线,以确定您的预测随时间变化的可靠性时,这是最符合逻辑的日期格式。这类图表对于判断所观察到的效应的重要性以及传达分析的最终结论特别有用。然而,从单一的折线图中理解所有数据细节可能比较困难。
将日期视为离散变量
当您将日期视为离散变量或维度时,Tableau会将日期解释为独立的日期部分的集合。日期部分是指诸如年、月、日这样的标签。每个日期部分都可以独立交互,这对于某些类型的图表(例如,当您想查看二月份的所有数据时)很有用。将日期视为维度时,标记日期部分也可能更直接。然而,在将日期视为维度的情况下制作时间折线图可能会导致一些奇怪的效果,因为Tableau会在年份之间断开线条。尽管如此,将日期视为维度允许您制作统计中使用的其他图表,称为箱线图或盒须图,这能让您看到不同时间点上数据的全部细节。盒须图通常过于复杂,无法有效地向观众传达分析结论,但它们对于您作为分析师快速理解数据细节非常有帮助。
实践决策
作为一名数据分析师,您必须善于决定哪种类型的可视化最适合哪种情况。

让我们通过解决下一个数据分析问题来获得一些决策的第一手经验。问题是:与数据相关的薪资是否随时间发生了变化?让我们一探究竟。
总结
本节课我们一起学习了折线图的核心价值:它最适合展示随时间变化的趋势和连续变量间的关系。我们还探讨了在Tableau中,根据分析目的将日期数据作为连续度量或离散维度处理的不同效果。掌握这些知识,将帮助您在面对具体业务问题时,做出最恰当的可视化选择。
098:日期作为层级维度或度量 📅
在本节课中,我们将学习如何在 Tableau 中处理日期数据。日期既可以作为维度(分类变量),也可以作为度量(连续变量),理解这种区别对于正确分析和可视化数据至关重要。我们将通过探索薪资随时间变化的趋势来实践这一概念。

你在这个专项课程中已经多次听说,商业的未来在于数据及其分析者。你很可能选修这门课程,是因为听过类似的观点,并希望了解如何参与其中。如今,公司对数据分析师和数据科学家的需求日益增长。你可能因此预期,这些职位的薪资会随着需求而上涨。如果是这样,你或许会推测,如果现在进入这个领域,未来的薪资将与你积累的工作经验年数成比例增长。在本视频中,我们将开始探索情况是否如此。

首先,请打开你的 Tableau 工作簿并创建一个新的工作表。我们想从观察整个数据集中薪资随时间的变化开始。为此,我们再次将 paid wage per year 放入行功能区。然后,我们将使用 casereive date 作为要探索的日期字段,并先按年份查看,尽管我们的数据中实际包含每个申请收到的具体日期。
如果我们直接将 casereive date 拖到列功能区,Tableau 会立即生成一个折线图。让我们先关注数据本身。观察这个折线图,X 轴是时间,Y 轴是年薪。数据显示,2008 年后薪资确实出现了下滑,这可能与 2008 年的经济衰退有关。此后,数据集中所有职位的薪资似乎在缓慢回升,但似乎仍未恢复到 2008 年之前的水平。我们稍后会再思考这个问题。


现在我们已经查看了数据,我想向你指出 Tableau 中的几个特性。首先,请注意列功能区上的 Year 胶囊是蓝色的。Year 胶囊显示为蓝色,意味着 Tableau 将其视为维度或分类变量。 这表示 Tableau 将每一年视为独立、不连续的数据点。
其次,请注意 Year 标题旁边有一个小加号。胶囊上通常不会显示这个符号。让我们点击它看看会发生什么。






点击一次后,观察 X 轴,你会发现 Tableau 现在按季度显示数据,而不是年份。再次点击,则会显示月份。有时某个月份可能没有数据,Tableau 会将其从图表中省略,例如 2009 年第二季度这里。Tableau 在这些子集内部绘制了线条,但并未连接不同子集之间的线条。这是为什么呢?

这是因为 Tableau 默认将日期视为层级结构。 默认情况下,Tableau 会自动将日期组织成由年、季度、月、有时还有周和日定义的层级。在这个默认设置中,年始终是层级的最高点,这意味着它将每一年视为独立的,因此不会在图表上连接不同年份之间的线条。
需要指出的是,你可以更改这些默认设置,创建自定义的层级。例如,如果你想按双周或双月绘制数据。但目前,我们将继续使用默认设置,并回到按季度级别查看数据。


现在,我想在此稍作停顿,指出一点,因为我们在课程中可能不会再深入讨论层级。你可以在 Tableau 中创建任何类型的层级,Tableau 会自动创建一些,你也可以自定义。例如,如果你查看左侧的变量面板,会发现 Tableau 用 country of citizenship、work state 和 work city 创建了一个层级。这个小图标表示它已被组织成层级。然而,这个自动创建实际上是不正确的。Tableau 的想法是好的,但 country of citizenship 在我们的数据中指申请人的国籍,而 work state 和 work city 指的是工作地点本身,因此我们实际上不希望将这些变量分组。我们可以通过点击下拉菜单并选择“移除层级”来轻松取消分组。这样,所有变量就从层级中移除了。
创建具有相同下钻功能的自定义层级非常简单,就像我们刚才查看日期时看到的那样。要创建自己的层级,只需将一个变量拖放到另一个变量上。例如,如果我们想创建一个包含 work postal code 和 work postal state 的层级,只需将 work postal code 拖放到 work postal state 上,它就会创建一个包含工作州和邮政编码的层级。虽然我们当前的分析不需要这个变量,但我觉得有必要展示在 Tableau 中可以这样做,以备你在自己的分析中需要。
现在,让我们回到关于薪资是否随时间变化的问题。有时,将日期视为维度(分类变量)是有用的。但在我们当前的情况下,将其视为度量(连续变量)更有意义,因为我们知道时间在年份之间并未停止,而是持续流动的。因此,创建一个连接所有日期的图表更合理。为此,我们需要将日期字段更改为度量。
我之前已经介绍过通过变量面板更改的几种方法,但这次我将展示另一种方式。首先,让我们回到这里,让操作更简单些。点击下拉菜单(这里的设计有点令人困惑,不知道为什么没有标签),你会看到 Tableau 在两个不同的地方引用了日期层级的部分。第一个区块实际上包含了 Tableau 将日期视为维度的所有实例,而第二个区块则包含了 Tableau 将日期视为度量的所有实例。因此,如果你点击第二个区块中的 Year,而不是第一个区块中的,你会发现胶囊的颜色变成了绿色,表示它现在被当作度量处理。
它仍然有这个加号按钮。点击后,你会看到它仍然将数据分解为层级的不同部分,但现在它会连接线条,而不是将它们全部视为完全独立的。你可以继续下钻到不同级别的细节,这里是月份,这里是周。在 Tableau 中将日期视为度量时,向上回溯层级会稍微困难一些,我认为这只是程序的一个小怪癖,最简单的方法是通过这个下拉菜单回到上一级。
线条如此锯齿状的原因是我们并非每个数据点都有大量数据,因此数据噪音较大。为了分析目的,我们应该回到一个我们认为数据更充足、更有信心的细节级别,比如季度或年。让我们从季度开始,并请注意一点。如果我们在此处按季度查看数据,你的解读可能与按年查看时不同。按年查看时,薪资看起来相当高,经济衰退后下滑,并且似乎没有真正恢复,甚至在 2015 年可能遇到了一些困难。但按季度查看时,你会发现实际上 2008 年某个季度薪资出现了奇怪的峰值,可能是存在一些异常值。但总体来看,薪资与现在水平相当接近。甚至可以说,薪资可能正在上升。这是一个很好的例子,说明你必须决定如何查看数据,而这个决定会影响你的解读。目前,为了简化,我们按年查看数据。但在分析的不同阶段,我们可能需要来回切换,同时按季度和年查看,以确定哪种方式能最真实地反映实际情况。

做得好。现在你已经理解了日期在 Tableau 中的工作原理,以及将日期视为维度或度量的不同后果。我们已经准备好回答我们的数据分析问题:数据相关薪资是否随时间变化。这将是下一个视频的内容。

在本节课中,我们一起学习了 Tableau 中日期字段的双重性质。我们了解到,日期默认被组织成年、季、月等层级结构,并且可以作为维度(蓝色胶囊)或度量(绿色胶囊)使用。这种选择直接影响图表的连接性和数据解读。我们还实践了如何通过点击胶囊或使用下拉菜单在层级间导航,以及如何创建和移除自定义的数据层级。理解这些是进行有效时间序列分析的基础。
099:使用日期层级分析数据相关薪资随时间变化 📊

在本节课中,我们将基于上一节视频的知识,探讨特定类别的数据相关工作薪资是否随时间发生变化,尤其是与其他类型的工作相比。我们将学习如何在 Tableau 中通过添加工作子类别信息、使用高亮功能以及创建散点图和折线图来深入分析数据趋势。
在上一节中,我们学习了如何在 Tableau 中使用日期层级。本节中,我们将利用这些知识来解答一个具体问题:与数据相关的特定工作类别的薪资是否随时间变化。
现在,我们回到上次离开时的 Tableau 工作簿。
既然我们已经理解了日期的工作原理,就可以开始解答关于特定数据相关薪资类别是否在上涨的问题了,尤其是与其他工作类型相比。
为了实现这个目标,我们需要将工作子组信息添加到图表中。理想情况下,我们应为每个工作子类别在图表上添加一条独立的线条。
如何在同一图表中显示所有子类别的线条呢?我们无法使用列架或行架。这时,标记卡就派上用场了。
我建议用颜色来编码不同的工作子类别。请将“工作标题子组”字段拖拽到“颜色”标记上。
现在,Tableau 已为每个工作标题子组创建了不同颜色的线条。
在继续之前,数据清晰地显示了一个情况:2008 年的数据非常少。实际上,我们有 6 个工作子类别在 2008 年完全没有数据。因此,我们不应解读 2008 年的趋势。
回到我们刚刚创建的图表。我建议从现在开始,我们只查看 2009 年及以后的数据。我们可以像上次一样使用筛选器来实现。
你可以基于日期范围进行筛选。为此,我们可以将筛选范围调整到 2009 年开始。
以这种方式查看数据,会呈现出与之前不同的图景。现在看起来,总体薪资可能是在上涨的,尽管在 2015 年有所下降。
让我们回过头来,重点关注不同工作标题子组的变化趋势。再次将“工作标题子组”直接拖到“颜色”上。你会看到,由于使用的是同一个图表,它仍然只查看 2009 年及以后的数据。同时值得注意的是,仍然有两个工作标题子类别在 2009 年没有数据,这一点很重要。
我知道这个图表看起来有点杂乱,所以我要向你展示 Tableau 中一个很酷的功能,它能让浏览这类更复杂的图表变得容易得多。
在“工作标题子组”图例上,你会看到一个小图标,它是一个高亮器,显示“高亮显示所选项目”。点击它(这是一个开关),然后当你点击图例中的某个类别时,它会将其他所有内容灰显,只突出显示你选择的那个类别。
这使得单独查看每个不同类别变得更容易,而无需使用筛选器。这是一种不同的方式,并且它实际上并不会过滤掉数据,只是灰显了数据的特定部分。
观察图表,你会发现数据科学家的薪资看起来相对稳定,在 2015 年略有下降。软件工程师的薪资似乎开始上涨。数据分析师和商业分析师的趋势则不太明确。
我们目前掌握的信息还不足以得出结论,因此我建议我们更详细地查看数据,以更好地理解数据的真实情况。最好的方法是再次查看散点图,这样我们可以在一个视图中看到所有数据点。
在操作之前,请注意这里的药丸是绿色的。现在,请转到“分析”菜单,选择“聚合度量”以取消数据的聚合。
为了方便查看所有内容,我们现在将“年份”更改为维度变量,因为 Tableau 处理维度日期的方式会使 X 轴更紧凑。
然后,转到“智能显示”卡,点击散点图。
让我们把标记的大小调小一点。
现在,当我们这样做时,再次使用高亮功能查看特定的子组。我会按照我们一直关注的顺序来排列它们。
如果我们只看数据科学家的数据,底部的值似乎有下降趋势,上方的异常值似乎不多。
软件工程师的情况则非常不同。观察这些粉色圆点的底部值,它们看起来确实在下降,但每个数据“团块”的顶部值似乎又在上升。同时,随着时间的推移,异常值明显增多,出现了更多高薪的个例。
数据分析师呢?我们再次看到了这种模式,这次甚至更明显:最低值似乎在下降,最高值似乎在轻微上升,异常值没有那么多。
商业分析师的情况类似。
这表明,总体而言,薪资可能保持不变或略有上涨,但同时,获得更高薪资的机会可能增大了,但获得更低薪资的风险也可能增加了。
让我们更直接地审视这一点。我认为最好的方法是回到折线图。我们需要重新聚合度量。
这是我们之前的折线图。现在,为了当前的分析目的,让我们将“工作标题子组”从工作区中移除。
我想做的是更直接地审视:对于每个类别,最低薪资是否在下降,而最高薪资水平是否在上升。
为此,让我们将“每年支付工资”拖到行上。这次,我们不使用中位数,而是将其聚合,选择“最大值”。
让我们再做一次,显示“最小值”。
这里显示的是:随时间变化,我们整个数据集支付工资的中位数、最大值和最小值。
这样观察,情况变得相当明显:至少在整个数据集中,尽管中位数工资保持不变,但在个别情况下,有可能赚到多得多的钱,但也有可能获得远低于中位数预期的薪资。
我们如何确认在折线图中观察到的效应是否足够稳健,值得我们在后续分析和决策中加以考虑呢?

我建议,在此背景下,最好的方法是使用统计学。在下一个视频中,我们将学习如何在 Tableau 中计算这些统计数据。
本节课中,我们一起学习了如何利用 Tableau 的日期层级和可视化功能,深入分析不同数据相关工作子类别的薪资随时间变化的趋势。我们使用了颜色编码、高亮器、散点图和聚合折线图等多种工具,初步发现了薪资分布可能存在的两极分化现象,并为后续的统计分析奠定了基础。
100:使用趋势线分析数据相关薪资随时间变化 📈

在本节课中,我们将学习如何在 Tableau 中使用趋势线(回归分析)来快速评估数据中的模式是否具有统计显著性,并应用此技术分析数据相关岗位薪资随时间的变化趋势。

概述
在前几节课程中,我们通过可视化图表探索了数据。本节我们将利用 Tableau 的简单统计功能——趋势线分析,来帮助我们判断哪些数据模式值得深入关注,从而加速数据分析过程。
从连线图到散点图
上一节我们介绍了如何使用连线图观察数据趋势。本节中,我们来看看如何将连线图转换为散点图,以便进行回归分析。
首先,我们需要调整之前的图表。请将视图中的连线去除,改为仅显示独立的数据点标记。请对每一个图表都进行此操作。
以下是操作步骤:
- 在标记卡中,将“自动”或“线”更改为“圆”或其他形状。
- 确保每个数据系列都显示为独立的点。
理解回归与趋势线
完成图表转换后,我们可以引入趋势线。回归分析是一个试图找到一条最贴合所有数据点的直线的过程。这条线被称为最佳拟合线或趋势线。
在 Tableau 中添加趋势线非常简单:
- 在图表区右键点击。
- 选择“趋势线” -> “显示趋势线”。
图表中出现的黑色直线就是最佳拟合线。它代表了回归分析所能找到的、连接所有数据点的最优路径。
解读置信区间与 P 值
趋势线周围的弯曲带状区域是置信区间。本例中显示的是 95% 置信区间,它帮助你了解这条趋势线的可靠性。可以理解为,有 95% 的把握认为真实均值落在这个区间内。
虽然置信区间提供了视觉上的可信度参考,但统计学的意义在于用具体数字辅助决策。Tableau 也提供了这个数字——P 值。
将鼠标悬停在趋势线上,可以看到趋势线的方程及其 P 值。
- P 值表示观察到的趋势是偶然发生的可能性。P 值越小,说明从这条趋势线得出的结论越可靠,越值得信赖。
- 统计学惯例是,通常只信任 P 值小于 0.05 或 0.01 的趋势线。
- P 值 ≤ 0.05 意味着假阳性率在 5% 或以下。
- P 值 ≤ 0.01 意味着假阳性率在 1% 或以下。
例如,如果一条趋势线的 P 值为 0.07,由于它大于 0.05,我们在分析时可能不会将其视为一个需要重点关注的显著效应。
为各职位子类别添加趋势线


现在,我们将为每个职位子类别分别添加趋势线。为了使图表更清晰,我们首先关闭置信区间的显示。
操作步骤如下:
- 右键点击趋势线,选择“编辑趋势线”。
- 取消勾选“显示置信区间”,然后点击“确定”。
接下来,我们将“职位子类别”字段拖拽到标记卡的“颜色”上,为每个图表按子类别着色。然后,为每个子类别数据系列单独添加趋势线。
完成上述操作后,我们可以独立查看每个子类别(如数据科学家、软件工程师等)的数据趋势了。同样,我们可以使用高亮筛选功能,单独查看某一类别的趋势。
分析各职位薪资趋势
在分析时,务必注意各图表的纵轴刻度范围可能不同,这会影响对趋势线斜率的直观判断。最准确的方法是悬停查看每条趋势线的 P 值及其方程。
以下是基于趋势线分析得出的观察结果:
- 数据科学家:最高薪资随时间呈显著上升趋势,而中位数薪资变化不显著。
- 软件工程师:最高薪资随时间上升,最低薪资随时间下降,中位数薪资变化不显著。
- 数据分析师:最低薪资随时间下降,最高薪资基本持平,中位数薪资变化不显著。
- 业务分析师:最低薪资下降,最高薪资有上升趋势但不显著,中位数薪资无变化。
综上所述,分析表明:
- 数据科学家和软件工程师岗位获得高薪的机会可能在增加。
- 所有数据相关岗位的典型薪资(中位数)似乎保持稳定。
- 除数据科学家外,其他岗位随时间推移,获得低于预期薪资的风险可能略有增加。
全局趋势线与分颜色趋势线
最后,再介绍一个有用的功能。目前,我们为每个颜色组(即每个职位子类别)分别绘制了趋势线。你也可以绘制一条基于所有数据聚合的全局趋势线。
操作方法是:
- 右键点击趋势线,选择“编辑趋势线”。
- 取消勾选“允许每个颜色一条趋势线”。
此时,图表会显示一条代表所有数据整体趋势的黑色趋势线,同时仍保留按颜色区分的原始数据点。虽然在本例中分颜色趋势线对分析更有帮助,但全局趋势线在其他分析场景下可能非常有用。

总结
本节课中我们一起学习了以下内容:
- 如何将连线图转换为散点图以进行回归分析。
- 如何在 Tableau 中添加和解读趋势线(最佳拟合线)。
- 如何理解置信区间和关键的 P 值 统计量,并利用 P 值判断趋势的统计显著性。
- 如何为不同的数据子类别分别添加趋势线,并分析数据相关岗位薪资随时间的变化。
- 发现了数据科学家和软件工程师的最高薪资呈上升趋势,而多个岗位的最低薪资呈下降趋势,中位数薪资则保持稳定的有趣洞察。
- 了解了全局趋势线与分颜色趋势线的区别及应用场景。
通过本节学习,你掌握了使用 Tableau 进行快速统计检验以指导数据分析方向的方法。
101:使用箱线图分析数据相关薪资随时间变化 📊

概述
在本节课中,我们将学习如何使用箱线图(Box and Whisker Plot)来分析数据相关职位的薪资随时间变化的趋势。我们将重点理解将日期变量视为离散维度而非连续度量时,如何通过箱线图获取比趋势线更丰富的数据分布信息。
从趋势线到箱线图
上一节我们介绍了如何使用日期作为连续变量或度量来创建折线图,并进行回归分析以获得带有P值的最佳拟合线。这些P值从统计上告诉我们拟合线的可靠性,从而影响我们对所观察趋势的信任程度。
本节中,我们来看看将日期视为离散变量或维度的一个优势。当你将日期视为离散维度时,你可以创建一种称为箱线图(或盒须图)的统计可视化图表。这些箱线图可以展示比最佳拟合线(即使带有置信区间)更多的数据细节。
理解箱线图
那么,什么是箱线图呢?在一个箱线图中,你会看到一个箱子、箱内的一条线、一些“须线”,有时在须线外还有一些点。
- 箱内的线代表该组数据的中位数。
- 箱子本身显示了数据集中介于中位数与最小值或最大值之间一半位置的值。
- 须线通常延伸到1.5倍的四分位距。
- 须线外的点通常被视为异常值。
为了更好地理解,以下是箱线图各部分的计算逻辑:
- 排序与四分位点:将数据集中的所有值按从小到大排序。将排序后的数据分成四个相等的部分,分割这三个点称为四分位数。
- 最小的那个点称为第一四分位数。
- 最大的那个点称为第三四分位数。
- 四分位距:第一四分位数和第三四分位数之间的距离称为四分位距。
- 须线范围:箱线图的须线通常延伸到 1.5倍的四分位距。任何超出此范围的单个数据点通常被视为异常值。
虽然箱线图产生的图像并不总是最简洁美观,但对于分析师自己总结组内原始数据值非常有用,能让你或你的团队对原始数据有一个直观的感受。
在Tableau中创建箱线图
上一节,我们为每个时间点创建了三个折线图:中位数薪资、最高薪资和最低薪资。另一种查看数据并获得类似信息的方法是,将日期视为维度而非度量,并为每个时间点创建一个箱线图,然后查看不同子类别组的箱线图。
现在,让我们在Tableau中实际操作。
以下是创建基础箱线图的步骤:
- 打开你的Tableau工作簿并新建一个工作表。
- 将“paid wage per year”字段拖到行功能区。
- 将“case receive date”字段拖到列功能区。确保该胶囊是蓝色的,表示它是一个维度。
- 转到“显示”卡,点击箱线图图标。
- 此时,图表可能看起来不像箱线图,而像一个带线的单点。这是因为Tableau默认对每年的数据进行了聚合。要创建箱线图,它需要多个数据点。
- 转到顶部菜单栏的“分析”,取消勾选“聚合度量”。现在,箱线图就会正确显示。
按职位子类别分解箱线图
为了按不同的职位子组查看这些箱线图,我们需要添加筛选器。
以下是操作步骤:
- 将“job title subgroup”字段拖到“筛选器”功能区。
- 暂时选择包含所有子类别,并创建一个快速筛选器以供查看。
- 现在,当你点击筛选器中的不同职位子类别时,箱线图会相应变化。这表明Tableau确实为筛选器上不同的职位子组分别计算了箱线图。
重要提示:这与我们之前使用的突出显示技巧不同。如果你将“job title subgroup”放在“颜色”标记卡上,然后使用突出显示,虽然它显示参与计算的数据点不同,但箱线图本身的计算结果并不会改变。箱线图需要原始数据并基于原始数据进行聚合计算。
分析与解读
让我们使用相同的坐标轴来比较不同职位子类别的趋势,以便进行公平比较。我们将Y轴固定为从1到300,000。
以下是不同职位子类别的观察结果:
- 数据科学家:可以清楚地看到,随着时间的推移,有越来越多的薪资低于第一四分位数。同时,也有越来越多的薪资具有更高的值。这表明,虽然中位数变化不大,但获得高于或低于中位数薪资的可能性都在增加,且低薪资趋势似乎更强。
- 软件工程师:使用相同坐标轴后,可以看到确实有越来越多的薪资低于中位数,但情况似乎不如数据科学家严重。另一方面,似乎有越来越多的高薪软件工程师。
- 业务分析师与数据分析师:对于业务分析师,最低薪资下降趋势不那么明显,但最高薪资似乎在增加。数据分析师的情况与业务分析师相似。

总体而言,这些箱线图虽然不像最佳拟合线那样有相关的统计模型,但由于展示了更多数据,它们比上一节的折线图更有力地表明:随着时间的推移,在数据相关工作中获得高薪的机会可能增加,但同时,薪资低于预期的风险也可能增加,特别是如果数据分析师和业务分析师职位自2015年以来的新趋势持续下去的话。
总结
本节课中,我们一起学习了将变量视为连续或离散的不同效果。将变量视为连续或离散会影响你可用的统计方法类型,也会影响你能获取的信息类型。这些统计结果和你获得的信息实际上会影响你的分析和解读,至少会影响你对解读结果的信心。
在Excel中尝试将变量从离散转换为连续可能需要很长时间。但像Tableau这样的程序的一个美妙之处在于,它几乎可以让你即时完成这种转换,既快速又简单。这是一个很好的例子,说明了可视化和可视化程序如何能够真正加快你完成数据分析的速度。
102:在Tableau中自定义与共享新数据 📊

在本节课中,我们将学习如何使用Tableau进行数据操作、创建新字段以及共享分析结果。我们将探讨Tableau如何帮助分析师处理来自不同来源的大型数据集,并通过计算、公式和数据组合来创造新的数据洞察。
上周大家做得很好。鉴于我们当前的角色定位,本周我们将继续学习如何使用Tableau来回答数据分析问题。本周,我们将深入探讨Tableau的数据操作、创建和共享功能。
被誉为现代管理学之父的彼得·德鲁克曾说过,企业只有两个基本职能:营销和创新。创新就是让尚未存在的事物显现出来,而这正是本周你将在Tableau中学习如何做到的。
Tableau提供的最强大的工具集之一,就是专门用于向原始数据集添加和自定义新数据的工具。当你编写一个计算或公式,将结果输出回你的数据集时,你就是在创造新数据。当你首次组合多个独立的数据集时,你也是在创造之前不存在的新数据。在分析领域,我们往往认为这种能力是理所当然的,因为像Excel这样的程序在设计上就非常适合实现公式计算。
然而,一旦你的数据量过大而无法在Excel中处理,或者数据来自组织方式完全不同的多个来源时,向数据集添加新字段这一能力的重要性就会重新凸显出来。
如果你的数据量太大,Excel无法处理,它们很可能会存储在关系型数据库中。因此,你可能需要使用数据库查询语言来检索和组织所需的数据。有时,如果你试图组合的数据集在细节层次上差异很大,即使使用查询语言也可能具有挑战性。
此外,为了查看从数据库中查询的任何结果,你必须将它们导出到单独的可视化软件中,或者以某种方式压缩它们,使结果足够小以便在Excel中处理。而且,每次你想制作不同类型的可视化,或进行需要数据以不同方式组织的分析时,都必须重复这个过程。这个过程确实可能非常耗时且痛苦。
因此,像Tableau这样的可视化软件能够让你快速在来自不同来源的大型数据集中创建和添加新字段,这实际上填补了分析大数据可用工具中的一个重要空白。这样做,它使得分析师更容易同时成为检索大数据和分析大数据以帮助指导商业决策的人。
因此,我希望你能接受并深入研究Tableau提供的所有计算功能,以及我们将学习的通过仪表板和发布数据故事来共享分析结果的所有能力。这样做将帮助你朝着成为我们在专项课程开始时讨论过的“独角兽”人才迈出一大步——那些能够组装数据、清理数据、分析数据并将其含义传达给其他决策者的人。
我迫不及待想看到你们的创作。

本节课中,我们一起学习了Tableau在数据操作与创新方面的核心价值。我们了解到,Tableau强大的计算和字段创建功能,能够帮助分析师高效处理多源、大规模的数据,填补了传统工具(如Excel)在处理大数据时的能力缺口。通过掌握这些技能,你可以创造新的数据洞察,并将分析结果有效地共享和传达,从而在商业决策中发挥关键作用。
103:Tableau 计算类型 📊

在本节课中,我们将要学习 Tableau 中计算的核心概念、不同类型及其应用场景。计算是 Tableau 实现数据灵活分析和动态可视化的关键工具。
上一节我们介绍了 Tableau 的基础操作,本节中我们来看看如何通过计算来增强分析能力。
什么是计算?

计算通过“计算字段”来实现。计算字段类似于 Excel 中的命名单元格,其语法也与 Excel 公式非常相似。这些字段可以包含固定值,也可以包含引用其他单元格的公式。每个计算字段本身既可以作为其他计算的输入,也可以直接以特定方式显示结果。
计算的类型
Tableau 提供了多种类型的计算,以适应不同的分析需求。以下是主要的计算类型:
- 数值计算:用于执行算术运算,例如
[销售额] - [成本]。 - 字符串计算:用于修改单元格中的实际文本或单词,例如
UPPER([客户名称])。 - 日期计算:专门设计用于简化日期处理,例如
DATEADD(‘month’, 1, [订单日期])。 - 类型转换计算:用于更改您正在处理的变量类型,例如将数字转换为文本
STR([产品ID])。 - 逻辑计算:包含条件判断语句,例如
IF [利润] > 0 THEN “盈利” ELSE “亏损” END。 - 聚合计算:定义将多行数据汇总在一起的方式,例如
SUM、MEDIAN、MIN等。 - 用户计算:这类计算比较独特,用于管理查看您数据的人员权限。
计算的聚合级别
计算最复杂的方面之一是它们可以在不同的聚合级别上实现。如果一个计算是为某个聚合级别设计的,它在其他级别上将无法工作。
理解计算如何与聚合级别交互的方法是问自己一个问题:如果我在 Excel 中执行此计算,我是在新列的每一行得到一个数字,还是在所有列的底部得到一个单一数字?
- 行级计算:如果您在 Excel 中会得到一个每行都有新数字的新列,那么在 Tableau 中您就需要行级计算。这将在数据集中为每一行创建一个带条目的新列。当您确定数字在任何详细级别都有用时,应使用此类计算。
- 聚合级计算:如果您在 Excel 中执行类似计算后,会在列底部得到一个单一数字,那么在 Tableau 中您就需要使用聚合级计算。这类计算一次处理多行数据或处理已经聚合的变量。
- 表计算:第三种类型与行级和聚合级计算非常不同,它是表计算。这类计算仅对可视化中已有的数据,并按照其在可视化中的组织方式进行运算。您可以将表计算理解为 Tableau 在“脑海中”进行的数学运算。它们功能极其强大,但也是 Tableau 中最难掌握的部分之一。
计算字段的使用

创建计算字段后,您可以像使用数据源中的度量和维度一样使用它。只要所有工作表都来自同一数据源,您就能在每个工作表中看到该计算字段。
我们无法逐一讲解 Tableau 能实现的所有计算类型,因为种类确实繁多,但我们会介绍其中广泛使用的多种类型。我鼓励您自行探索和尝试其他计算。如果在尝试过程中遇到问题,您可以随时在 Tableau 社区网站上寻求建议或发布问题。这是一个极好的资源,世界上一些最优秀的 Tableau 用户经常在那里发帖,因此我强烈推荐您去看看。
本节课中我们一起学习了 Tableau 计算的基础知识,包括其定义、主要类型(如数值、字符串、逻辑计算)以及关键的聚合级别概念(行级、聚合级和表计算)。理解这些是构建动态、强大数据分析视图的第一步。接下来,让我们开始动手创建一些计算吧。
104:如何编写计算字段 📊

在本节课中,我们将学习如何在 Tableau 中创建和使用计算字段。计算字段允许你基于现有数据创建新的变量,从而进行更深入的分析。我们将从熟悉计算面板的布局开始,了解其各个组成部分,并学习如何编写、验证和编辑计算。
熟悉计算面板
首先,请打开我们之前使用的 Tableau 工作簿。本周我们将使用一个略有不同的数据集,其中已为您清理了州名,这将方便我们后续的一些操作。


在开始查看计算之前,请先打开名为 salary data states corrected 的新数据集。请从网站下载该文件并打开它。和上次一样,由于文件较大,加载可能需要一些时间。
打开文件后,和上次一样,您需要更改一些变量的类型。例如,case receive date 当前是字符串类型,您需要将其更改为日期类型。decision date 也应更改为日期类型。请为数据集中的所有字段进行类似的修正。
修正完所有字段后,如果尚未更新,请点击“立即更新”。
更新完成后,让我们转到工作表。
替换数据源


进入工作表后,请转到数据面板。右键单击旧的 salary data(不是新的那个),选择“替换数据源”。然后,将 salary data 替换为 salary data states corrected。
替换数据后,您会看到新数据集旁边有一个勾选标记。在某些情况下,您可能不想删除旧数据集,因为您可能在旧数据集中创建了新变量,而这些变量在新数据集中不存在,您可能希望再次使用它们。例如,如果您向下滚动到 workday group,这是我们为尝试修正旧州名而创建的变量,这个变量在新数据集中不存在。如果您想保留它,就需要同时保留两个数据集。Tableau 实际上知道如何将这两个数据集链接起来。当您看到这个小回形针或链接图标时,就表示 Tableau 正在将旧数据集连接到新数据集,并允许您使用这个变量,尽管它只存在于旧数据集中。顺便说一下,它是通过 case number 进行链接的。
不过,我们不需要这两个组。为了使操作更简单,我们将删除这个旧数据集。
现在,我们应该准备就绪了。接下来,让我们看看计算面板是什么样子的。
计算面板的布局

和往常一样,您可以通过多种方式打开计算面板。第一种方法是右键单击数据面板的空白处,然后选择“创建计算字段”。
这就是计算面板。它有几个不同的部分:
- 标题:这是计算字段的标题。您应该始终设置一个标题,并且尽量使其比我现在设置的更具描述性。因为您通常会有很多计算,它们很容易混淆。标题越具描述性,以后使用起来就越方便。
- 计算区域:这是您实际编写计算的地方。
- 函数列表:右侧区域列出了 Tableau 中所有可用的不同计算函数。如果您点击此处的下拉菜单,您会看到我之前告诉您的不同类别:数字、日期等。如果您不记得这些函数的作用,可以回顾之前的视频。Tableau 的一个巧妙之处在于,它会告诉您每个函数需要做什么。即使函数很多,当您点击它们时,面板的这个区域会确切地告诉您如何使用该计算。

例如,对于 ABS 函数,您只需要在括号内放入一个变量名。
编写和验证计算
让我们以 ABS 函数为例,看看具体操作。您可以通过双击函数名或在此处手动输入来开始编写计算。现在,它提示我们输入一个变量名。我们输入 education level required。实际上,您可以直接从工作簿的变量面板将变量拖入计算区域。
这里有几件事需要注意:
- Tableau 自动将变量名放在了方括号
[]中。这是因为每当您的变量名包含空格时,Tableau 可能会混淆,除非您告诉它这是一个完整的变量名。使用方括号就是解决方法。如果变量名没有空格,则不必使用方括号,但我建议您养成始终使用它们的习惯,这样可以避免错误。 - 变量名在此处显示为橙色,而计算函数显示为蓝色。当您有很长的计算时,这有助于您定位。变量名总是橙色,而浅蓝色表示您正在使用聚合计算。
我特意使用这个变量名,是为了向您展示当计算不正确时会发生什么。Tableau 在这方面非常有用,它会在此处以红色消息显示错误。如果您点击它,它会告诉您哪里出错了。您可以看到它提示此计算 ABS 应该使用整数,而我们使用的是字符串。education level required 是字符串,但它需要一个数字。
为了修正它,您必须使用不同类型的变量,例如 experience required。现在您可以看到它显示“计算有效”。
现在,我想回过头向您展示如果我们确实有错误的计算会发生什么。让我们回到 education level required。它显示包含错误,但 Tableau 实际上会让您点击“确定”,并继续创建计算变量。您可以看到,一旦创建了计算变量,它会自动将其放入维度或度量面板中,看起来就像任何其他变量一样。不过,在这种情况下,它旁边有一个红色的感叹号,这意味着这是一个错误的计算。如果我尝试将其拖到工作区的任何其他部分,Tableau 不会允许,因为它是错误的。
如果出现这种情况,您始终可以通过右键单击计算字段并选择“编辑”来修改您的计算。然后您会回到计算面板,可以进行任何修改。
计算中的格式规则
关于计算中的格式,还有另一件事需要知道:每当您引用一个字符串(即一系列字母)时,该字符串需要用引号括起来。
让我们转到字符串计算,例如 FIND 函数。您可以看到此处对 FIND 的描述:先放一个左括号,然后放入您感兴趣的完整单词或字符串,接着是逗号,再放入您想在第一个字符串中查找的字母。它会告诉您这个子字符串在更大字符串中的位置。这为您提供了一个索引,用于指示子字符串在更大字符串中的位置。
让我们看看具体操作。假设我们想查看 Analysis 这个单词,并想知道字母 y 在哪里。这个计算可以让我们做到这一点,您可以看到它显示有效。
另一个有趣但似乎确实如此的现象是,Tableau 可以识别字符串中的单引号或双引号。所以这样写也有效。因此,当引用字符串时,您可以使用单引号或双引号,但必须使用某种引号。
使用注释和识别聚合计算
让我们看另一种类型的计算:ATTR。这个函数返回给定表达式的值,但前提是该表达式在组的所有行中只有一个值;否则,它会显示一个星号。
我想通过这个函数向您展示的是,尤其是在处理很长的计算时,有时您可能想为自己留下注释。您可以通过添加注释来实现。通过在计算中输入两个斜杠 // 来向 Tableau 表明这是注释。您可以看到,当我输入一个斜杠时,字体是深色的,但如果我输入两个,它会自动变为浅色字体,让您知道这是注释。您可以在这里写任何内容,计算仍然有效,因为 Tableau 不会将这部分内容纳入计算中。这可以是一个非常有用的功能。
通过这个特定计算,另一个有用的观察点是,您可以看到 ATTR 是加粗显示的。加粗 表示任何在 Tableau 本地对某种聚合函数或聚合结果执行的计算。如果它是正常字体,比如 decision date,这意味着它将在数据库级别或行级别执行。当您有非常长的计算并试图排除故障时,或者当您有嵌套计算(稍后会看到)时,记住这种格式结构会很有用。这是一个很好的提醒,让您知道您的计算是在聚合函数或聚合结果集上执行,而不是在行级结果上执行。
创建一个实际的计算字段
让我们创建一个稍后实际会用到的计算类型:INDEX。INDEX 函数很有趣,我们实际上不需要在括号内放入任何东西。稍后我们会展示这意味着什么。您可以看到计算有效,点击“确定”。
现在,您可以看到在度量面板中出现了 rank,它旁边有一个小等号,这表示它是一个计算参数。现在,您可以像使用数据面板中的任何其他度量或维度一样使用 rank 了。
总结



本节课中,我们一起学习了 Tableau 计算面板的基本布局和核心操作。我们了解了如何通过替换数据源来更新数据集,并深入探索了计算面板的各个组成部分:标题、计算区域和函数列表。我们实践了如何编写一个简单的计算(如 ABS),并学习了 Tableau 如何通过颜色编码(橙色变量名、蓝色聚合函数)和错误提示来辅助我们。关键点包括:为包含空格的变量名使用方括号 [education level required],为字符串常量使用引号 "Analysis",以及如何使用双斜杠 // 添加注释。我们还区分了本地聚合计算(加粗字体,如 ATTR)和行级计算。最后,我们成功创建了一个计算字段 INDEX()。现在您已经对计算面板的布局有了良好的感觉,在下一个视频中,让我们开始制作一些行计算。
105:提升筛选效率的计算方法 📊

在本节课中,我们将学习如何在 Tableau 中使用计算字段来创建行级计算,从而更高效地筛选数据。行级计算会为数据集的每一行生成一个独立的值,类似于在 Excel 中创建一个新列。

上一节我们介绍了计算窗格的基本用法,本节中我们来看看如何通过具体的行计算示例来优化筛选流程。
创建逻辑计算字段
我们首先创建一个计算字段,作为上周操作的一种替代方案。上周,我们通过将“州”变量拖到筛选器卡片上,并逐一勾选我们感兴趣的州来筛选数据。一种更快捷的方法是创建一个计算字段,当数据行中的州属于我们感兴趣的组时,该字段返回“真”或类似的逻辑值,否则返回“假”。
以下是创建该计算字段的几种方法。
方法一:使用 IF 语句
我们可以使用一系列 IF-THEN 语句来构建逻辑判断。基本格式如下:
IF [Work State] = "California" THEN "View"
ELSE "Don't View"
END
注意:如果字符串本身包含单引号,为了避免 Tableau 解析错误,需要使用双引号将整个字符串括起来。例如,"Don't View"。
如果我们对10个感兴趣的州都进行判断,可以添加多个 ELSEIF 语句。另一种更简洁的写法是在条件中使用 OR 语句。
以下是使用 OR 语句的完整示例:
IF [Work State] = "California" OR[Work State] = "Washington" OR... (其他8个州) ...
THEN "View"
ELSE "Don't View"
END
方法二:使用 CASE 语句
除了 IF 语句,我们还可以使用 CASE 语句来实现相同的逻辑。CASE 语句的格式略有不同,它不使用等号。
以下是 CASE 语句的示例:
CASE [Work State]WHEN "California" THEN "View"WHEN "Washington" THEN "View"... (其他8个州) ...
END
关键点:CASE 语句是一个逻辑函数,而非聚合函数。无论使用 IF 还是 CASE,都必须以 END 关键字结束。
让我们保存这个计算字段,并将其命名为“States We Are Interested”。保存后,你会在维度窗格中看到这个新字段,旁边有一个等号图标,表明它是一个计算字段。
应用计算字段进行筛选
现在,我们可以使用这个新建的计算字段来复现上周制作的条形图。
首先,创建一个新的工作表。由于是新工作表,一些工资变量(如“Paid Wage Submitted”)可能又变回了维度,我们需要将它们重新设置为度量,并将默认聚合方式改为“中位数”。
以下是操作步骤:
- 将“Paid Wage Per Year”拖到行功能区。
- 将我们创建的计算字段“States We Are Interested”拖到筛选器卡片上,并只勾选“View”。
- 将“Work State”拖到列功能区。
- 将“Job Title Subgroup”拖到颜色标记卡上。
这样,我们就得到了与上周类似的图表,但这次筛选步骤更加高效,只需在计算字段筛选器上点击一次“View”,而无需逐个勾选十个州。
总结与展望 🎯

本节课中我们一起学习了如何利用 Tableau 的计算字段创建行级逻辑计算,从而简化数据筛选过程。我们掌握了使用 IF 语句 和 CASE 语句 两种方法来构建判断逻辑,并将生成的计算字段应用于视图筛选,显著提升了工作效率。
在下一个视频中,我们将继续运用计算功能,来分析和解答更多关于数据相关职位薪资的新问题。
106:识别支付低于市场薪资的公司 💰

在本节课中,我们将学习如何使用计算字段来识别那些支付给员工(特别是非美国籍员工)的薪资低于市场普遍薪资的公司。我们将通过创建计算字段、应用逻辑判断以及可视化分析来达成这一目标。
概述与目标
上一节我们学习了如何创建基本的计算字段。本节中,我们将利用这些技能来回答一个具体的商业分析问题:在数据相关职位中,是否有公司系统性地支付低于市场普遍水平的薪资?我们将通过比较“实际支付年薪”和“市场普遍年薪”来找出这些公司。
创建薪资差异计算字段
首先,我们需要一个能够比较实际支付薪资与市场普遍薪资的变量。由于原始数据中没有这个字段,我们将创建一个计算字段。
以下是创建名为“薪资差异”的计算字段的步骤:
- 在数据表中,选择“创建计算字段”。
- 将字段命名为
Difference_Between。 - 在公式区域输入:
[Paid Wage per Year] - [Prevailing Wage per Year]。
这个简单的算术计算会告诉我们,实际支付的年薪是高于还是低于市场普遍年薪。正数表示支付更高,负数则表示支付更低。创建成功后,该字段会出现在度量列中,旁边带有等号标识。
可视化薪资差异情况
现在,让我们来看看刚刚创建的计算字段。我将视图切换为显示中位数。
为了直观地查看所有数据点,了解有多少公司支付低于或高于市场薪资,我们创建一个散点图。
- 将
Job Title Subgroup拖入“列”功能区。 - 将
Difference_Between拖入“行”功能区。 - 在“分析”菜单中,取消选中“聚合度量”,以显示所有数据点。
调整图表格式使其更清晰后,我们可以清楚地看到,确实有一批公司支付低于市场普遍水平的薪资(数据点位于零线以下),当然也有许多公司支付等于或高于市场水平的薪资。
筛选支付低于市场薪资的记录
为了专注于分析支付较低薪资的情况,我们不使用简单的筛选器,而是再创建一个计算字段。这样做的好处是,我们可以基于已有的计算字段进行更复杂的逻辑判断。
以下是创建名为“支付低于市场薪资”的计算字段的步骤:
- 再次选择“创建计算字段”。
- 将字段命名为
Paying_Less。 - 输入以下 IF 逻辑公式:
IF [Difference_Between] < 0 THEN “Paid Below Prevailing Wage” ELSE “Paid Prevailing Wage or Higher” END
这个公式检查“薪资差异”是否为负数。如果是,则标记为“支付低于市场薪资”;否则标记为“支付市场薪资或更高”。这演示了如何基于另一个计算字段进行运算。
创建完成后,将这个新字段 Paying_Less 拖到“筛选器”功能区,并只选择“Paid Below Prevailing Wage”。现在视图只显示那些支付低于市场薪资的记录。初步观察发现,“助理教授”职位经常薪资偏低,教师职位也时有发生。在数据相关职位中,商业分析师和软件工程师似乎也有不少此类情况,而数据科学家或数据分析师则相对较少。
识别系统性低薪支付的公司
接下来,我们需要回答一个关键问题:这些低薪支付是零星发生的,还是某些公司有系统性的行为?即,是否有公司 consistently 支付低于市场水平的薪资?
我们可以通过树状图来按公司分析低薪支付的频率。
- 首先,在筛选器中只选择我们关心的“数据相关职位”。
- 然后,重新聚合度量(在“分析”菜单中勾选“聚合度量”)。
- 将“标记”卡中的图形改为“树状图”。
- 将
Employer Name(雇主名称)拖到“大小”上。 - 将
Paying_Less字段拖到“颜色”上(确保只显示“Paid Below Prevailing Wage”)。
这个树状图的大小代表了公司出现低薪支付的案例数量。将鼠标悬停在方块上可以看到具体数字。我们发现很多公司只出现了一次,这可能是偶然情况。
为了找出那些系统性低薪支付的公司,我们需要进一步筛选。让我们对 Employer Name 应用一个计数筛选。
- 将
Employer Name拖到“筛选器”上。 - 在筛选器对话框中,选择“条件”选项卡。
- 选择“按字段”筛选,字段选择
Paying_Less。 - 设置条件为“计数”至少为 5。
这意味着,我们只查看那些在过去几年(数据覆盖期内)至少有5次支付低于市场薪资记录的公司。应用此筛选后,我们发现像“IBM India”这样的公司有12次记录,甚至“Google”也有8次,“LinkedIn”有6次。这表明对于“软件工程师”这个职位,确实存在公司系统性地支付较低薪资。
为了对比,我们可以通过筛选器快速查看其他数据相关职位(如商业分析师、数据分析师、数据科学家)的情况。结果显示,在这些职位上,没有公司达到“至少5次”低薪支付的门槛。这说明系统性低薪问题主要集中在“软件工程师”这个职位类别。

总结与应用
本节课中,我们一起学习了如何通过创建计算字段来识别支付低于市场薪资的公司。我们首先计算了薪资差异,然后通过逻辑判断筛选出低薪记录,最后利用聚合和可视化工具发现了在“软件工程师”职位上存在系统性低薪支付模式的公司。
总结来说,数据分析显示,对于数据分析师、商业分析师和数据科学家,公司通常支付市场普遍薪资或更高,这是个好消息。然而,软件工程师的情况则不同,有几家公司似乎系统性地支付低于市场水平的薪资。掌握了这个知识后,当你未来申请或考虑申请这些公司的职位时,就可以将此作为一个重要的考量因素。
现在你已经成为了行计算方面的专家,在下一课中,我们将学习如何进行聚合计算。
107:混合价格平价与薪资数据

在本节课中,我们将学习如何将两个不同粒度的数据集——薪资数据和地区价格平价数据——结合起来,以计算经生活成本调整后的实际薪资。我们将重点介绍 Tableau 中的“数据混合”功能。
调整薪资数据的必要性
上一节我们分析了不同数据相关职位的原始薪资。这些信息很有用,但存在一个问题:相同数额的薪资在不同地区,由于生活成本差异,其实际购买力是不同的。例如,在新罕布什尔州的75,000美元与在纽约市或旧金山的75,000美元,能提供的生活标准截然不同。
因此,如果你在决定求职地点时会考虑薪资水平,那么你需要关注的是经当地生活成本调整后的薪资,而非原始薪资本身。
引入地区价格平价数据
我们找到了一个数据集,提供了美国50个州及华盛顿特区共51个地区的“地区价格平价”。这是一个指数,将全美商品与服务的平均成本设为100。特定地区的价格平价显示了该地区生活成本与全国平均水平的比较关系。
- 公式:
地区实际成本比例 = 地区价格平价 / 100 - 示例:如果一个州的地区价格平价是120.4,意味着该州生活成本比全国平均水平高约20.4%。如果另一个州的指数是91.5,则意味着生活成本比全国平均水平低约8.5%。
我们可以利用这个数据集来调整薪资数据,以反映生活成本的影响。
数据混合的挑战


然而,这里存在一个实际操作问题。我们的两个数据集结构不同:
- 薪资数据:每一行代表一份具体的签证申请薪资记录。我们通过聚合这些行来计算特定职位的薪资中位数。
- 价格平价数据:每个州只有一行数据,粒度更粗。

如何将这两个不同聚合级别的数据集结合起来呢?
Tableau 的数据混合功能
Tableau 的“数据混合”功能可以解决这个问题。它允许我们将两个具有不同聚合级别的数据源结合在一起。Tableau 实现此功能只需要一个两个数据集共有的字段。在我们的案例中,这个共有字段就是“州名”。
从概念上理解数据混合的工作原理很重要。计算效率最高的方式,是先将较大的数据源(薪资数据)按照共有字段(州)定义的级别进行聚合,然后再与较小的数据源(价格平价数据)链接。
这样做是因为 Tableau 混合数据时需要在内存中创建临时表。先聚合再链接,生成的临时表会小得多,性能更优。
数据混合的规则与影响
以下是使用数据混合时需要了解的关键规则和影响:
- 主次数据源:粒度较粗的较小数据集应设为主数据源,粒度较细的较大数据集设为次数据源。
- 粒度限制:混合后的字段无法在比最小数据表更细的粒度上使用。例如,你无法看到混合后每个城市级别的价格平价(因为价格平价数据只到州级别)。
- 数据包含性:
- 存在于次数据源(大表)但不在主数据源(小表)中的值,不会被纳入结果。
- 存在于主数据源但不在次数据源中的值,会以空值形式包含进来。
- 字段类型:为了与较小表混合而对较大表进行的聚合字段,将始终是度量,无法更改为维度,因为正是维度(州)定义了聚合的详细级别。
- 按图表混合:为了保持可视化分析的灵活性(以便在不需要混合时能在更细粒度上分析较大表),混合是针对你创建的每一个图表单独进行的。这也会影响计算字段的公式编写。
开始混合与计算

了解了这些原理后,接下来我们就可以实际操作,将薪资数据与价格平价数据进行混合。然后,我们将运行一些聚合级别的计算,以确定在考虑生活成本调整后,哪些州能为不同的数据相关职位提供最高的实际薪资。
本节课中,我们一起学习了为何需要根据生活成本调整薪资,并深入探讨了 Tableau 中数据混合功能的概念、规则和应用场景。下一节,我们将进行实际操作,完成数据混合并计算调整后的薪资。
108:根据生活成本调整数据相关薪资

概述
在本节课程中,我们将学习如何将薪资数据与生活成本平价数据相结合,并计算一个调整后的薪资值。这个计算能帮助我们确定,在考虑了不同地区的生活成本后,哪些州为数据相关岗位提供的实际薪资最高。
数据准备与导入
上一节我们介绍了薪资数据的处理,本节中我们来看看如何引入生活成本数据并进行合并。
首先,你需要从课程网站下载生活成本平价数据集。请确保将其保存到你能找到的位置。
以下是操作步骤:
- 打开 Tableau。
- 点击左侧的“数据”窗格。
- 在顶部菜单栏选择“添加新数据源”。
- 选择“Excel”选项。
- 导航到你保存生活成本平价数据文件的位置,点击“打开”。
导入完成后,你可以在工作表区域看到新增的“price parity”工作表。原始薪资数据集旁会有一个蓝色的勾选标记,表示它是当前活动数据源。
关联两个数据集
为了将薪资数据与生活成本数据结合起来,我们需要在 Tableau 中建立数据关联。
以下是建立关联的步骤:
- 在顶部菜单栏,点击“数据”,然后选择“编辑关系”。
- 在弹出的窗口中,Tableau 通常会将第一个加载的数据集设为默认主数据源。但在实际分析中,主次数据源的角色可能会根据你在工作区中首先使用的变量而动态变化。
- 为了演示,我们将较小的数据集(生活成本数据)设为主数据源,较大的数据集(薪资数据)设为次要数据源。因此,主数据源选择“price parity”,次要数据源选择“salary data sets corrected”。
- 起初,两个数据源的“州”字段旁可能没有链接标记。这是因为两个数据集中州字段的列名略有不同(例如“Work state”和“state”),Tableau 的自动匹配未能成功。
- 返回“编辑关系”窗口,将匹配选项从“自动”改为“自定义”。
- 点击“添加”,然后在弹出的对话框中,将薪资数据中的“Work state”字段与生活成本数据中的“state”字段进行关联。
- 点击“确定”完成设置。
现在,生活成本工作表上的“state”变量旁会出现一个带横线的链接图标。点击这个图标激活数据混合,此时“price parity”工作表旁会出现一个橙色的勾选标记,表示它现在作为次要数据源与工作区中的主要数据(薪资数据)进行了混合关联。
创建调整后薪资计算字段
现在两个数据集已经关联,我们可以创建一个计算字段,用于根据生活成本调整年薪中位数。
以下是创建计算字段的步骤:
- 右键单击“数据”窗格中的空白处,选择“创建计算字段”。
- 将新字段命名为“Adjusted Paid Wage”。
- 在公式编辑区输入以下计算逻辑:
([Paid Wage per Year] / [Price Parity]) * 100 - 输入公式后,你可能会看到错误提示。这是因为“Paid Wage per Year”和“Price Parity”的聚合级别可能不匹配。生活成本数据(Price Parity)是以州为单位的,没有更细的粒度。
- 为了解决这个问题,我们需要确保两个字段的聚合级别一致。将“Price Parity”的聚合方式从“总和(SUM)”改为“属性(ATTR)”。同时,将“Paid Wage per Year”的聚合方式设置为“中位数(MEDIAN)”。
- 修改后的有效公式应类似于:
(MEDIAN([Paid Wage per Year]) / ATTR([Price Parity])) * 100 - 点击“确定”保存计算字段。现在,在“salary data corrected”数据源下,你可以看到新创建的“Adjusted Paid Wage”字段。
验证与可视化分析
在深入分析前,我们先验证一下计算是否正确。
为了提升数据混合的运算速度,我们可以先使用之前创建的筛选器,只关注我们感兴趣的10个州。
以下是构建验证表格的步骤:
- 将之前创建的州筛选器应用到当前工作表。
- 将“Work state”(或来自price parity的“state”)拖放到“列”功能区。
- 将“Median Paid Wage per Year”、“Price Parity”和“Adjusted Paid Wage”三个字段依次拖放到“标记”卡片的“文本”属性中。
- 现在,你得到了一个包含原始薪资、生活成本指数和调整后薪资的数据表格。
你可以使用计算器手动验证一行数据。例如,用某个州的年薪中位数除以该州的生活成本指数,再乘以100,结果应与表格中“Adjusted Paid Wage”列的数字一致。这证实了我们的计算是正确的。
对比分析调整前后薪资
确认计算无误后,我们可以进行可视化,更直观地对比调整前后的薪资差异。
以下是创建对比视图的步骤:
- 将“Median Paid Wage per Year”拖放到“行”功能区。
- 将“Job Title Subgroup”拖放到“列”功能区,放在“State”前面。
- 将“Adjusted Paid Wage”字段拖放到“行”功能区,紧挨着“Median Paid Wage per Year”。现在你可以看到两列并排的条形图,分别代表原始薪资和调整后薪资。
- 为了更直接地对比,我们可以使用一个技巧:将“Adjusted Paid Wage”拖放到“Median Paid Wage per Year”的坐标轴上,实现重叠。
- 将“度量名称”拖放到“标记”卡片的“大小”和“颜色”上(按住Shift或Ctrl键可同时拖放)。
- 现在,图表中较粗的条形代表调整后薪资,它叠加在表示原始薪资的条形上。

通过这个视图,你可以清晰地看到差异。例如,在阿拉巴马州,调整后的薪资可能高于原始薪资,这意味着考虑到较低的生活成本,该薪资的实际购买力更强。而在加利福尼亚州、马萨诸塞州或纽约州,调整后的薪资则显著低于原始薪资,反映出这些州高昂的生活成本极大地削弱了薪资的实际价值。
总结
本节课中,我们一起学习了如何在 Tableau 中混合不同的数据源。我们通过关联薪资数据和生活成本数据,创建了一个计算字段来根据生活成本调整薪资。最后,我们通过可视化对比,直观地看到了生活成本如何影响不同地区数据相关岗位薪资的实际购买力。这为做出更明智的职业或居住地决策提供了关键洞察。在接下来的课程中,我们将利用表计算,进一步分析在全国范围内,对于特定数据岗位,哪些州在考虑生活成本后能提供最高的实际薪资。
109:计算各职业子类别中调整后薪资最高的州 📊

在本节课中,我们将学习如何使用 Tableau 的表格计算功能,在考虑生活成本后,找出全美范围内不同数据相关职业薪资最高的州。这是一个稍显复杂的主题,但我们会逐步分解,确保你能掌握。一旦理解,你将看到 Tableau 的强大之处,并为后续创建仪表板打下良好基础。
理解混合数据源与计算字段
在开始之前,我们需要确保理解混合字段的工作原理。
- 原始年薪数据:将
paid wage per year放入行中,会得到整个数据集的年薪中位数。 - 调整后年薪数据:将我们创建的
adjusted paid wage计算字段放入行中,则不会显示任何数据。
原因:adjusted paid wage 计算需要基于州级别进行聚合。当前工作区中没有提供州级别的维度,因此计算无法进行。
解决方法:将 work state 放入列中。现在,我们看到了按州划分的调整后年薪数据。
注意:数据中存在一些空值点。
原因:当我们混合数据源时,Tableau 将薪资数据集视为主数据源。任何存在于薪资数据集但不存在于价格平价数据集中的记录(例如美国的一些海外领土),在计算字段中都会显示为空值。因此,我们无法在价格平价数据集未覆盖的地区查看此计算字段的结果。
设定分析目标与可视化
我们的分析策略是:在每个 job title subgroup(职业子类别)内部,根据 adjusted paid wage(调整后年薪)对所有州进行排序。
为了简化计算并便于理解,我们先对数据进行筛选,仅关注我们感兴趣的州(后续可以再放开筛选)。
- 将
job title subgroup拖放到work state之前。这类似于我们之前课程中见过的可视化。 - 回忆一下,如果我们尝试直接排序,Tableau 似乎无法在每个子类别内部进行排序,而是对整个表格进行某种全局排序。这正是表格计算可以发挥作用的地方。
创建排名计算字段
Tableau 无法直接基于可视化内部的内容进行排序。我们需要创建一个计算字段,告诉 Tableau 如何对工作区内的字段进行处理。
目标:创建一个计算字段,用于对 work state 在 job title subgroup 的范围内进行排名。
关键步骤:要在工作区内进行计算,同时保留原始数据,需要复制数据字段。
- 按住
Ctrl(Windows)或Cmd(Mac)键,将adjusted paid wage药丸拖拽到“标记”卡片的“详细信息”上。这会复制该字段。 - 在复制出的新
adjusted paid wage药丸上右键单击,选择“添加表计算”。 - 在计算类型中选择“排名”。
- 接下来进行关键配置:
- 计算依据:不要选择加粗的选项(如表、穿过、穿过然后向下等),因为这些选项会根据当前可视化的具体布局进行硬编码,缺乏灵活性。建议点击“高级...”进行设置。
- 分区依据:定义计算的分组。这里我们选择
job title subgroup。计算将在每个分组内独立进行。 - 寻址依据:定义计算应用的对象。这里我们选择
work state。排名将应用于每个分组内的州。 - 排序顺序:选择“降序”,因为我们希望薪资最高的排第一。
- 并列值处理:可以选择如何处理并列排名。例如,选择“竞争”模式,则并列后的下一个名次会跳过并列数量(如:1, 2, 2, 4)。
点击“确定”完成设置。
调整可视化与格式
现在,这个排名计算字段(显示为绿色,被视为度量)需要被放置在正确的位置并调整为维度。
- 调整字段类型:我们希望排名在每个
job title subgroup内重新开始(1,2,3...),因此它需要是一个离散的维度,而不是连续的度量。将该计算字段从“度量”区域拖到“维度”区域,或右键单击选择“转换为离散”。 - 调整视图结构:将排名字段拖放到列架上,置于
job title subgroup和work state之间。你会立即看到,各州已在其职业子类别内按调整后年薪进行了排名。 - 隐藏排名标题:排名数字本身可能不需要在最终视图中显示。右键单击列架上的排名字段,取消勾选“显示标题”。
- 美化视图:由于 Tableau 在每个职业子类别内对州进行了分区和聚合,视图上会出现许多分隔线。为了视图更清晰:
- 在视图空白处右键单击,选择“格式”。
- 在格式边栏中,选择“边框”选项卡。
- 将“列分隔符”的级别调低一档,这些分隔线就会消失。

总结
做得好!我们已经完成了一半的工作。本节课中,我们一起学习了:
- 理解了混合数据源中计算字段的依赖关系,特别是聚合级别对计算结果的影响。
- 创建并配置了表格计算字段,使用“排名”函数,并通过高级选项精确设置了分区依据(
job title subgroup)和寻址依据(work state)。 - 掌握了调整字段类型(度量转维度) 以符合计算逻辑的需求。
- 进行了视图格式优化,包括隐藏计算字段标题和调整网格线,使可视化结果更加清晰美观。

现在,我们已经拥有了回答“各职业子类别中调整后薪资最高的州”这一问题所需的所有计算数据。下一节课,我们将利用这些结果来最终解答这个数据分析问题。
110:使用参数定义顶尖州

概述
在本节课程中,我们将学习Tableau中一个强大的功能——参数。参数是动态的占位符,允许用户交互式地改变视图。我们将通过创建一个参数来控制显示每个职位子组中排名前几的州,从而替代之前使用的静态筛选器。
参数简介与用途
上一节我们介绍了复杂的计算字段。本节中我们来看看参数。参数是Tableau中的一个核心功能,它是一个可以代表字符串、数字或日期的占位符。
参数的重要性在于其交互性。用户可以通过下拉菜单、输入框或点击来快速改变参数值。参数与筛选器的不同之处在于它是全局的。在一个工作表中更改参数,所有其他工作表中的该参数也会同步更新。这使得参数非常适合用于构建连贯的故事点。
另一个优点是参数可以用于计算中,这使得计算变得更加动态和强大。
创建参数
我们的策略分为两步:首先创建一个参数,然后创建一个计算字段,将每个项目的排名与该参数进行比较。最后,我们将这个计算字段放到筛选器架上,实现动态筛选功能。
以下是创建参数的步骤:
- 在变量面板中右键点击,或从顶部菜单栏选择“分析”>“创建参数”。
- 将参数命名为
top X,以体现其动态性。 - 数据类型选择“整数”,因为我们使用整数作为分界点。
- 将当前值设置为
5。 - 显示格式选择“自动”,并允许所有值。
- 点击“确定”。
创建后,参数会出现在变量面板底部,可以像度量或维度一样使用。
创建计算字段进行比较
现在我们需要创建一个计算字段,将我们之前创建的排名与新的参数进行比较。
以下是创建计算字段的步骤:
- 右键点击,选择“创建计算字段”。
- 将字段命名为
In Top X。 - 在公式编辑器中输入:
[Rank Calculation] <= [top X]- 注意:参数
[top X]显示为紫色,这是参数的标识颜色。 - 此计算是一个逻辑计算,结果为真时输出“True”,为假时输出“False”。
- 注意:参数
- 点击“确定”。
创建后,该字段旁边会显示“=TF”图标,表明它是一个真/假计算。
应用参数与计算
接下来,我们需要能够与参数交互,并将计算字段应用到视图中。


以下是具体操作:
- 右键点击参数
[top X],选择“显示参数控件”。视图旁会出现一个输入框,用于动态更改参数值。 - 将计算字段
[In Top X]拖到“筛选器”架上。 - 在筛选器对话框中,勾选“True”,这样视图将只显示排名小于或等于参数值的州。
配置表计算
应用筛选后,视图可能未按预期显示。这是因为我们之前创建的排名计算是一个表计算,需要正确配置其计算方式。
以下是配置步骤:
- 右键点击“标记”卡中的
[Rank Calculation]字段,选择“编辑表计算”。 - 在“计算类型”下,选择“特定维度”。
- 在“高级”选项中,将“工作州”字段添加到“寻址”列表中。
- 计算依据选择“工作州”,并确保为每个“职位标题子组”进行计算。
- 点击“确定”。
完成配置后,视图将正确显示每个职位子组中排名前X的州。例如,当参数设为5时,每个子组会显示排名前5的州。
动态交互验证
现在,我们可以通过参数控件动态改变显示的数量。
- 将参数值改为
7,视图会立即更新,显示每个子组中排名前7的州。 - 将参数值改为
3,视图会更新为显示排名前3的州。
这种全局联动特性使得参数在需要跨多个工作表统一改变可视化效果时非常有用。

总结
本节课中我们一起学习了Tableau参数的功能与应用。我们掌握了如何创建参数、如何构建基于参数的逻辑计算字段,以及如何将二者结合实现动态的全局筛选。通过使用参数,我们可以让仪表板变得更加灵活和交互性强,为深入的数据故事讲述奠定了基础。在接下来的课程中,我们将运用这些技能来创建动态而强大的仪表板。😊
111:创建交互式仪表板 📊

在本节课中,我们将学习如何创建 Tableau 仪表板。仪表板是商业智能和商业分析的关键组成部分,它允许我们将多个视图整合到一个界面中,并实现视图间的交互。我们将创建一个用于求职分析的仪表板,帮助你识别在特定数据相关职位中,哪些公司提供了最高的调整后薪资。
仪表板的核心作用
上一节我们介绍了如何制作单个图表,本节中我们来看看如何将多个图表整合到一个仪表板中。
仪表板通常用于满足公司内部对特定格式信息的需求。在这种情况下,你的任务是精确地按照客户要求的方式提供他们所需的信息。掌握让 Tableau 精确执行操作并按需格式化的技巧,是一项非常重要的技能。
然而,在本课程中,我们更侧重于帮助你作为数据分析师做出决策,并为企业决策做出贡献。因此,我们将为仪表板赋予一个不同的用途。在本课程中,仪表板的作用虽然更有限,但依然重要,主要是因为它是 Tableau 中唯一可以让你在一个地方同时查看多个图表的地方。
仪表板对数据分析有用的另一个原因是,在 Tableau 中,你可以使用一个图表的结果来筛选另一个图表的结果。这有助于你在解读数据时发现其中的细微差别。
如果你在一个数据分析团队中工作,仪表板也会很有用。与工作表相比,仪表板允许你添加更多的注释和文本框。因此,如果你想向团队更新你的工作进展,这是一个将所有内容集中放置、添加备注的好方法,有助于让每个人了解最新情况并达成共识。
构建求职分析仪表板

在我们的课程中,我们将为一个非常具体的目的使用仪表板。我们开始这项数据分析是为了帮助你确定,如果你想申请数据相关职位,应该申请哪些公司。
为此,我们将制作一个仪表板。仪表板的顶部将放置我们在上一课中制作的图表,该图表显示了在特定职位子类别中,调整后薪资中位数最高的州。仪表板的底部将显示,在该子类别和每个州中,哪些公司提供了最高的薪资中位数。这将帮助你精确地确定想要申请的公司。
为了实现这个目标,我们首先需要制作最后一个尚未完成的图表,用于显示哪些公司提供了最高的调整后薪资。
创建“高薪公司”图表
现在,让我们开始制作这个图表。
- 打开你的 Tableau 工作簿,并新建一个空白工作表。
- 我们将进行与上次非常相似的操作,但需要添加一个名为“雇主名称”的新字段。
- 将“调整后薪资”拖放到“行”功能区。
- 将“职位标题子组”拖放到“列”功能区。
- 为了简化操作,在放置“工作州”之前,先将我们感兴趣的州放入筛选器。
- 现在,将“工作州”拖放到“列”功能区,放在“职位标题子组”的右侧。
- 这次,我们将添加“雇主名称”字段。
- 如果我们尝试排序,会发现它似乎不是在一个州内的特定职位子组内排序,而是以某种方式在整个表格中排序。我们知道如何解决这个问题:使用计算字段。
- 将“调整后薪资”拖放到“标记”卡片的“详细信息”中。
- 创建一个表计算:选择“排名”,然后选择“沿表向下运行”。
- 跳过其他选项,直接进入“高级”设置。
- 将“雇主名称”移动到“寻址”侧,让“职位标题子组”和“工作州”保持在此处。“自动”设置即可,然后点击“确定”。
- 再次使用降序排列,点击“确定”。
- 将这个排名计算转换为离散变量,并将其放置在“工作州”和“雇主名称”之间,因为它专门用于对“雇主名称”进行排序。
- 处理完成后,你会看到排名现在按顺序显示,并且每个州都重新开始排名,这正是我们想要的。
接下来,我们需要像上次一样,使用参数计算来筛选出排名靠前的公司。
- 查看我们之前创建的“前 X 名”参数。你可以去编辑它,当前值可能是 3,我们将其改为 5。
- 回顾我们的“是否在前 X 名内”计算。该计算将给出调整后薪资的排名(我们仍在使用降序),并判断其是否小于或等于我们的参数值。这个计算仍然适用。
- 将这个计算字段拖放到“标记”卡片的“详细信息”中。
- 处理完成后,编辑这个计算,确保将其计算方式从“跨表”改为进入“高级”设置,并指定“雇主名称”为排序依据。
- 在高级设置中,“职位标题子组”和“工作州”保持在此处,将“雇主名称”移动到“寻址”侧,这是我们排序的依据。点击“确定”。
- 然后,将这个计算字段拖入筛选器,并选择“真”。
- 现在,我们应该只看到在每个特定职位标题子组中,薪资排名前 5 的雇主。
- 将“职位标题子组”放入筛选器,以便我们只查看数据相关职位。
- 确保我们控制了参数和筛选器。将“感兴趣的州”筛选器移除,以便查看所有州的数据。
最后,进行一些格式调整,使图表更美观易读。
- 再次去掉这个标题。
- 去掉网格线。
- 由于有较长的文本需要阅读,让我们改变图表的朝向,以便更容易阅读每个州、每个职位子组中的具体公司名称。
总结
本节课中,我们一起学习了 Tableau 仪表板的核心概念和创建方法。我们了解到,仪表板可以将多个相关视图整合,并实现交互筛选,这对于数据探索和团队协作非常有用。我们逐步创建了一个用于分析各州、各数据职位中高薪公司的图表,并为其设置了排名和筛选逻辑,为下一节构建完整的交互式仪表板做好了准备。

接下来,请观看下一个视频,学习如何将我们创建的所有视图组合成一个功能完整的仪表板。😊
112:设计仪表板以确定数据相关职位申请目标

在本节课中,我们将综合运用本周所学的全部知识,最终创建一个交互式仪表板。我们将学习如何将多个工作表组合到一个仪表板中,设置交互式筛选器,并创建图表间的联动操作,从而构建一个用于探索数据相关职位申请目标的分析工具。


🛠️ 创建新仪表板
首先,打开你的 Tableau 工作簿。找到用于创建新工作表的图标,它旁边就是“新建仪表板”的图标,点击它。


这就是仪表板的工作区。首先,需要熟悉几个关键区域:
- 左侧列出了我们创建的所有工作表。
- 中间区域可以定义要放入工作区的“容器”。容器用于为特定图表定义空间。将图表放入容器后,无论数据如何变化,图表都会自动调整大小以适应容器。
- 仪表板大小可以自定义。当前设置为“桌面”,我们可以将其改为“笔记本电脑”尺寸。你还可以为 iPad、手机或博客创建特定尺寸的仪表板。
📊 添加图表与容器
我们将选择两个图表放入仪表板。一个图表放在上方,另一个放在下方,这样布局比较清晰。
因此,我们将使用两个垂直容器。只需将“垂直容器”拖拽到工作区即可。
我们要放在顶部的图表,是之前视频中创建的“特定职位子类别下的顶级州”工作表。将其拖拽到顶部的容器中。
接着,将“顶级公司”工作表拖拽到底部的容器中。现在,Tableau 已经自动调整了这两个图表的大小。
🔧 调整布局与筛选器
首先,可以调整图表大小。点击一个图表,会看到灰色边框和控制点。拖动边框可以移动图表(当前图表填满容器,暂时无法移动),拖动边缘可以调整高度。例如,我们可以调整上方图表的高度,为下方图表留出空间。


接下来,处理筛选器。我们的快速筛选器随图表一起出现在仪表板上。目前,点击筛选器(例如“Data Ana”)只会过滤上方的图表,不会影响下方的“顶级公司”图表。


要改变这一点,点击筛选器框右上角的小箭头,选择“应用于工作表”。目前它只应用于当前工作表。我们需要选择“选定工作表”。


确保同时勾选“顶级公司”工作表,然后点击“确定”。



现在,当点击筛选器时,它会同时过滤上下两个图表。

你可能会注意到一些冗余信息。例如,颜色图例在当前场景下并不必要,因为筛选器和图表标题已经表明了筛选状态。
要移除图例,点击上方图表(因为图例属于它),找到图例右上角的小箭头,点击后选择“图例”,取消勾选“颜色图例”,图例就会消失。同样,你也可以在这里管理标题、添加说明等。


🔗 设置图表联动操作
现在,我们来实现一个关键功能:点击上方“顶级州”图表中的某个州,让下方“顶级公司”图表只显示该州的顶级公司。
这需要通过“操作”功能实现。点击顶部菜单的“仪表板”,选择“操作”。
目前没有定义任何操作。点击“添加操作”,选择“筛选器”操作。
在弹出的对话框中:
- 命名操作,例如“筛选州”。
- “源工作表”选择“顶级州”,取消勾选“顶级公司”。
- 触发方式选择“选择”(即点击数据点),并勾选“仅限单一选择”。
- “目标工作表”选择“顶级公司”,取消勾选“顶级州”。
- “清除选定内容时会”选项,建议选择“显示所有值”或“排除所有值”。这里选择“排除所有值”。
- 筛选字段选择“所有字段”。
点击“确定”保存操作。
现在,当你点击上方图表中的某个州时,下方图表就会自动筛选,只显示该州的顶级公司。你可以尝试点击不同的州,并更改职位子类别筛选器,观察图表如何联动更新。
💡 理解数据与完善仪表板
在互动过程中,你可能会发现一个现象:尽管我们设置的参数是显示前5家公司,但下方图表有时显示的公司数量少于5家。
这通常有两个原因:
- 存在并列排名。Tableau 的排名规则是,如果多家公司数值相同,它们会获得相同的排名,并占用后续排名位置。
- 该地区可能没有足够多的公司。
例如,当参数设为5时,有时会看到6家公司,这是因为第4名有多家公司并列。
此外,你可以优化筛选器的显示形式,例如将其改为“单值(下拉列表)”以节省空间。你也可以像在普通工作表中一样,右键点击图表中的标题、坐标轴等元素,进行格式设置,如修改字体、颜色等。鼓励你探索这些选项,定制出符合需求的视图。
最后,还有一个关键信息对决策至关重要:每个柱状图背后有多少条数据记录作为支撑。这决定了我们对所显示薪资代表性的信心。
要添加这个信息,需要回到“顶级公司”工作表。将“数据窗格”中的“记录数”字段拖拽到“标记”卡中的“工具提示”属性上。确保其计算方式为“计数(不同)”。
现在,当你返回仪表板,将鼠标悬停在下方图表的任一柱子上时,工具提示会显示该柱子所依据的记录数量(例如,Netflix 的薪资中位数基于16条记录,而 Load Dynamics 仅基于2条记录)。这有助于你评估数据的可靠性。





📝 总结与思考

恭喜!你已经成功创建了第一个 Tableau 仪表板。
通过本练习,我们可以认识到,仪表板虽然交互性强、富有趣味性,能有效传达核心信息,但它也存在一些讲述数据故事的局限性。主要原因在于:
- 仪表板通常信息密集。
- 即使用文本框和箭头引导,也难以精确控制观看者在每一时刻的视线焦点。
而讲述一个连贯的故事或传达明确的信息,往往需要以逻辑顺序呈现信息,这就要求对观众的注意力有更强的引导。
在下一个视频中,我们将探讨 Tableau 提供的另一种机制,它能更好地辅助我们实现这种叙事性的引导分析。
113:Tableau 中的可视化故事点 📖

在本节课中,我们将要学习 Tableau 中的“故事”功能。故事功能允许你将多个工作表或仪表板按逻辑顺序组织起来,形成一个连贯的数据叙事,用于向观众展示你的分析过程和结论。
故事功能概述
上一节我们介绍了仪表板的创建,本节中我们来看看如何构建一个数据故事。Tableau 的故事功能与仪表板不同,其核心在于将可视化内容按你设计的逻辑顺序排列。这样,你可以引导观众按照你的思路理解数据,并最终得出与你一致的结论。
故事中的每个“故事点”可以包含一个完整的工作表、一个仪表板或任何你想要的单一可视化。关键在于,这些故事点是有序的,这使你能够以最有效的方式呈现数据。
创建你的第一个故事
以下是创建故事的基本步骤。
- 打开你的 Tableau 工作簿。
- 在工作簿左下角,找到并点击看起来像一本书的图标,即“新建故事”。
- 点击后,你将进入故事工作区。其界面与仪表板工作区相似,但缺少容器。左侧会列出工作簿中的所有工作表。
- 在下方,你可以像设置仪表板一样,选择故事点的尺寸(例如“笔记本电脑”尺寸),以适应不同的发布需求。
构建故事序列
故事的工作原理是:每个故事点对应一个可视化内容。如果你想在一个故事点中展示多个可视化,必须先将它们组合成一个仪表板,然后将该仪表板放入故事点。
构建故事序列的流程如下:
- 创建第一个故事点,为其添加标题,并放入相应的可视化。
- 点击“新建空白点”来添加下一个故事点,为其添加标题和可视化。
- 重复此过程,最终你会得到一个由一系列带标题的故事点组成的序列。
例如,假设你想向朋友解释为何选择某个城市工作,你的故事序列可能是:
- 故事点 1:标题为“我考虑了专业对薪资的影响”,并放入相关的条形图分析。
- 故事点 2:标题为“我分析了薪资的未来增长趋势”,并放入带有最佳拟合线的时间序列图。
- 故事点 3:标题为“最初我考虑去加州”,并放入按州显示工作机会的地图。
- 故事点 4:标题为“但现在我决定尝试怀俄明州”,并放入包含多个视图的完整仪表板。
故事的交互性与演示
与仪表板类似,故事点中的可视化也可以是交互式的。观众可以点击、筛选或悬停以探索数据。
然而,故事与仪表板的一个重要区别是:在一个故事点中进行的交互操作(如筛选)不会影响其他故事点。这使你能够在保持叙事控制权的同时,允许观众进行探索。
这对于向技术团队做演示尤其有用。他们可以提问,你可以通过点击可视化的交互部分来实时展示数据;问答结束后,你可以轻松返回你预设的“大画面”故事线。
添加描述与格式化
你可以为每个故事点添加描述性文本,以提供更多背景或操作指引。


- 在故事工作区,点击“描述”框并双击。
- 输入你的文本,例如:“点击数据点以查看详细信息”或“点击州以查看提供最佳薪资的公司”。
- 你可以像处理其他对象一样,移动、浮动或调整这个文本框的位置。
此外,你可以更改故事标题的字体、颜色和对齐方式等,进行全面的格式化。
演示模式
要预览故事的最终演示效果,可以点击进入“演示模式”。
在演示模式下,所有编辑边框和工具栏都会隐藏,只留下纯净的数据可视化界面。你仍然可以像在普通视图中一样与图表进行交互。这模拟了向观众实际展示时的场景。
优秀故事案例与启示

网络上有很多使用 Tableau 故事功能制作的精美、复杂的数据叙事案例。它们通常包含丰富的文本框、多种可视化类型以及详细的工具提示。
然而,这些公开的故事点也揭示了一个常见问题:由于图表上数据量庞大或文本过多,观众往往难以快速抓住每个可视化的核心信息。通常需要阅读整段文字甚至自行点击探索才能理解作者的意图。
这也引出了我们下一周将要学习的重点:如何为单个图表或幻灯片制作清晰、有力的核心信息传达。许多设计原则可能与这些精美案例的做法相反,但掌握它们将使你在商业演示中更具说服力。
课程总结
本节课中我们一起学习了 Tableau 故事功能的核心概念与应用。我们了解到,故事是一种将可视化内容按逻辑顺序组织,以引导观众理解数据结论的强大工具。你学会了如何创建故事点、构建叙事序列、添加交互与描述,并使用演示模式进行预览。最后,我们通过优秀案例获得了灵感,也认识到清晰传达核心信息的重要性。请将故事功能视为你数据沟通工具箱中的重要一员,并在实践中不断探索。
114:运用可视化科学影响商业决策

在本节课中,我们将探讨可视化科学如何与决策科学相结合,从而影响商业决策。我们将学习如何通过引导观众的视觉注意力,来增强数据演示的说服力。
计算机协会是世界上最大的科学和教育计算学会。该学会在1959年首次开始出版笔记和通讯时,其编辑委员会将以下原因作为创办该出版物的理由之一:如果计算机编程要成为计算机研究和开发的重要组成部分,那么编程必须从一门艺术转变为一门有纪律的科学。
正如20世纪50年代末标志着计算机科学的开端一样,我认为今天我们也处在一个类似的起点,这个领域最终将被称为可视化科学。关于我们如何与可视化互动并从中学习,已经进行了大量研究,我们现在已经达到一个阶段,可以将其中一些知识视为事实。
这就是为什么Tableau可以理直气壮地声称他们已经自动化了可视化的最佳实践。正如我们在过去两周所学到的,Tableau在这些实践方面确实非常出色。
然而,本周我们将讨论一个来自可视化科学与决策科学交叉领域的见解,这个见解尚未完全实现自动化。这个见解就是:人们看哪里与他们决定什么紧密相连。简单来说,你将要做出的决定会影响你看哪里,而你看哪里也会影响你的决定。

现在有越来越多的科学文献表明,在一个复杂的视觉场景中你看哪里,甚至阅读文本时你看哪里,不仅会影响诸如你购买什么这样的实际事情,还会影响更抽象的判断,比如你认为什么是道德上错误的。
虽然每一次商业演示都会不同,你无法保证注视与决策之间的关系在每种情况下都相同,但这对于我们进行商业演示意味着:如果我们想影响人们对我们所展示内容的决策,我们就应该影响他们看哪里。

实现这一目标的最佳方法之一是引导他们的视觉注意力。事实上,注意力和视线注视这两个概念经常互换使用。我们不仅想让观众保持兴趣,实际上还想在物理上引导他们的眼睛,让他们看着我们打算用来影响他们决策的事物。
本周,我们将介绍一些技巧,告诉你如何调整图表以将人们的视线吸引到你希望他们看的地方。我希望你能从接下来的系列视频和练习中,至少带走两个总体性的、可操作的见解。
第一个见解是:如果你只是使用图表的默认格式,或者你的演示文稿充满了视觉上杂乱无章的幻灯片,那么你将放弃引导观众注意力和视线的能力。因此,你基本上会将观众对你所展示内容的决策过程留给偶然性。在你为精彩的分析项目付出所有努力之后,这将是多么巨大的遗憾。
第二个见解是:视觉对比是吸引人们注视数据相关图像的最佳方法之一,因此它也是你影响人们决策的最佳工具之一。

在我们能够制作数据相关图像之前,首先需要弄清楚数据讲述了什么故事,这就是我们本周要开始的内容。在确定了一个引人注目、逻辑严谨的数据故事之后,我们将讨论如何选择最佳的数据可视化来说服人们相信这个故事。
随后,我们将介绍一系列工具和概念,你可以用来优化你的可视化和演示风格。最终,你将成为运用可视化来让人们同意你基于数据的商业建议的大师。

本节课中,我们一起学习了可视化科学如何与决策过程交织。我们了解到,引导视觉注意力是影响决策的关键,而放弃这种引导意味着将决策权交给偶然。通过掌握利用视觉对比等工具,我们可以有效地将观众的视线引向关键数据点,从而更有力地支持我们的数据驱动型商业建议。
115:故事板与沙漏模型

在本节课中,我们将学习如何为商业演示构建一个清晰、有说服力的结构。我们将重点介绍“沙漏模型”,这是一种有效的演示框架,能帮助你从宏观问题切入,深入细节分析,最后再回归宏观结论,从而牢牢抓住听众的注意力。
你已经完成了数据分析,并且确定了展示数据故事和建议的日期。如何开始准备这次演示?
许多人会直接开始制作幻灯片,因为这表面上看起来是最有效率的方式。然而,就像在没有计划的情况下直接开始数据分析一样,在缺乏演示计划的情况下直接制作幻灯片,效率可能出奇地低下。最终,在开始制作幻灯片之前先规划好演示内容,将为你节省大量时间。
为了帮助你学习如何规划,本视频将讨论商业演示结构的大框架。这将为我们后续视频中讨论如何使用“故事板”来规划演示中的每一个场景提供一个思考框架。
沙漏模型:演示的宏观结构
你的演示整体结构应像一个带有长柄的沙漏。之所以称为沙漏,是因为你的演示将从宏观图景开始,然后聚焦到某些细节,最后在演示结束时再次回到宏观图景。
许多人会忘记最后这个回归宏观的步骤,但它非常重要,因为你最先和最后说的话,是听众最可能记住并留下持久印象的部分。沙漏模型利用了这一点,它用激励性的背景信息将数据展示包裹起来,而不仅仅是开场时引入背景。
以下是关于沙漏模型如何运作的更多细节。
第一步:从宏观图景开始
你首先要展示的宏观图景,是说明听众为何应该关心你即将解决的商业问题。在演示的前30到60秒内,你的任务是让听众对解决这个特定问题产生强烈的投入感。
一个有效的方法是使用我们在课程开始时讨论过的引人入胜的故事元素。这些元素包括引言、震撼的图片或关于问题相关者的真实故事,它们通过引发情感共鸣和动机,将人们带入情境。有些人也称之为“情感钩子”。由于时间就是金钱,在商业环境中,你只有不到一分钟的时间来传达商业问题的情感层面,而故事元素是高效做到这一点的好方法。
我们将在接下来的另一个视频中详细讨论如何使用故事元素。现在,你需要记住,激发听众听你讲述的意愿是你必须做的第一件事。在某些方面,这也是最关键的一步。正如一些人所说,“为什么重要”比“是什么”更重要。


第二步:提出建议与议程
一旦你激发了听众的情感,接下来要做的就是向他们提出你的建议,以及一个解决他们现在非常关心的商业问题的SMART方案。
就像制定SMART目标一样,你要告诉他们如何以具体、可衡量、可实现、相关且有时限的方式解决问题。在商业演示中,你的核心信息需要尽早出现,因为人们一进入会议室就想知道,与你共度的这段时间将是值得的。
因此,尽管某些类型的演讲(如TED演讲或主题演讲)可以通过缓慢铺垫、逐步引出要点并辅以丰富色彩来获益,但在商业演示中,你应该在开始讲话后的一分钟左右就陈述你的具体建议。
在给出你的SMART建议后,你需要简洁地总结你将用来支持该建议的要点。如果你的公司要求在演示中包含议程,议程幻灯片就应放在这里。
第三步:深入细节(沙漏的柄部)
一旦你的要点被总结或议程被列出,你就进入了沙漏的“柄部”。在这里,你将逐点展示你在故事板过程中精心组织的证据。
第四步:回归宏观的结论
在用证据打动听众之后,你的结论(位于沙漏底部)将包含三个部分。
- 重申联系:首先,再次简洁地阐明你的数据点如何支持你的SMART建议。
- 阐明收益:然后,通过清晰地陈述如果遵循你的建议将带来的显著收益,过渡到再次回归宏观图景。
- 激发共鸣:最后,最好通过再次使用故事元素(最好能与开头使用的元素呼应或关联),重新激发听众的热情和动力。尽力使用一个能给听众留下强烈、积极情感的故事元素。
关于潜在挑战与详细信息的建议
此时你可能想知道:我应该在何时告诉听众我将如何应对所有可能对我建议的挑战?
你绝对、绝对应该准备好回答如何应对潜在陷阱,并准备好阐明你在设计建议时所做的假设。但我建议,如果你需要幻灯片来解释这些,请将这些幻灯片准备在演示末尾的附录中,以便在讨论环节进行说明。
除非你明确知道你的特定听众希望提前看到这些信息,否则我会将这些幻灯片排除在主演示之外,以免它们干扰你数据故事的流畅性。
作为另一个建议,我会将详细的技术信息准备在书面材料中,而不是放在幻灯片上。幻灯片并非传达大量细节信息的最佳载体。如果可能,等到主演示结束后再分发这些材料。如果你在开始演示前就分发,听众的注意力将在听你讲、看幻灯片和阅读材料之间分散,从而导致他们从任何一种渠道保留信息的能力都可能下降。
总结与预告

以上就是关于我们在规划演示时所遵循的沙漏结构你需要了解的内容。那么,我们如何实现这个结构呢?

在接下来的几个视频中,我们将找到答案。
116:让数据故事生动呈现

在本节课中,我们将学习如何运用故事元素,让听众对你将要解决的商业问题产生情感共鸣,从而使你的数据分析和建议更具说服力。
概述:为何需要故事元素
在商业演示中,数据和分析是核心,但故事是连接数据与听众情感的桥梁。故事元素能帮助你将一个抽象的商业问题,转化为听众能够感知和关心的具体情境。通常,这些元素用于演示的开头和结尾,但也可以在演示过程中穿插使用,以保持听众的投入。

你的故事背景与动力


在探讨具体的故事元素之前,让我们先回顾一下你学习本课程的初衷。你学习使用Tableau和数据可视化,是为了解决商业问题。这是一项了不起的技能。在进行长时间的数据分析后,当你准备演示时,请回想那份自豪感。你之所以承担这个数据分析项目,是因为你要向听众展示如何解决一个影响公司、进而影响他们生活的问题。这是一件非常酷的事情。因此,在演示的开场和结尾,请带着这份自豪与热情。

如何激发情感
那么,如何具体地激发情感呢?无论是调动自己的情绪还是听众的情绪,最佳方式都是通过感官体验,尤其是视觉、听觉和身体感受。这正是故事的作用——创造体验,哪怕只有几秒钟。


核心故事元素
以下是构成故事的关键元素,对我们的目的最有用的是:角色、地点/场景、冲突和解决方案。
在商业演示中融入越多的这些元素,你的演示就越像一个故事,也越能激发听众的情感共鸣。
角色与场景
在数据分析的语境下思考角色或场景,起初可能显得奇怪。但请记住,你的整个项目背景都基于一个事实:企业中至少有一人(通常是多人)遇到了一个足以影响他们、并愿意付费解决的问题。
因此,在项目开始前,你就已经知道至少一个可以成为你数据故事一部分的角色和一个冲突。通常,与你的故事相关的角色和冲突有很多,包括你自己。
角色的运用
故事可以聚焦于个体角色或群体角色。有时,你甚至可以将一个非人的事物(如一家制造工厂或一个损坏的数据集)作为主角。
一个有效吸引听众的方法是,描述与你的问题相关的某个角色的经历或某个地点的情景,使用能让听众在脑海中真实描绘出人物或地点的细节。
另一个特别有力的方法是讲述你自己的亲身经历。
让我给你举个例子,听起来可能是这样的:
想象你在一家生产新型无线手机充电器的公司工作。你的任务是建议公司明年应如何分配营销预算。你的数据分析表明,公司应在每种营销渠道内,针对特定的年龄群体进行营销。如果这样做,他们的投资回报率将显著提高。
那么,你可以这样开始你的演示:
“我想和大家分享一下我上周末在父母家吃晚餐的经历。晚餐很美味,我爸爸做了他拿手的炖肉,连我的孩子们都喜欢。然而,晚餐后,一切都急转直下。我竭尽全力想让家人共度一段美好时光。我问了体育赛事,问了我父母他们小时候的事,我拿出了棋盘游戏。和往常一样,什么都没用。最后,在绝望中,我喊道:‘你们为什么连假装想在一起待会儿都不愿意?’
我女儿从沙发上抬起头——她当然正全神贯注于她的iPhone——说:‘妈妈,不是我们不想在一起,我们只是在放松。我想看看Facebook上大家都在干什么。’然后,我妈妈从正在阅读的周报上移开视线,说:‘亲爱的,路边的杂货店这周有促销,想看看吗?’
起初,我因恼怒而目瞪口呆。但随后我突然意识到,他们说得有道理。
在接下来的20分钟里,我将向你们展示,我们的营销活动如何能从我在家庭晚餐中学到的同一课中受益。正如我开始通过社交媒体与22岁的女儿在她的手机上互动,以及通过周报剪报与76岁的母亲互动后,我对周末晚餐的‘投资回报’大大改善一样,当我们开始通过不同年龄客户最喜欢互动的环境和实物与他们互动时,我们的营销投资回报也将得到改善。”
然后,你可以引出你的明智建议和议程。在这个开场白中,我利用个人经历引入了角色和地点,描述了冲突并提供了解决方案。这个简短但完整的故事给出了方向感和满足感。我希望我的听众感觉到,如果他们在我们的数据故事中沿着类似的方向前进,就像我在个人故事中那样,他们最终会获得类似的满足感。这种“动感”将激励听众听完我要讲述的全部内容。
其他情感钩子
如果你不习惯使用个人经历来激发情感,或者没有足够时间讲述一个完整的故事,还有其他方法可以作为情感钩子。
- 使用图像:你可以展示一张图片,比如一个青少年和一位祖母坐在沙发上,青少年沉迷于手机,而祖母则开心地剪着优惠券。然后你可以这样开场:“这张图片说明了我们都知道的一件事:不同年龄的人喜欢做的事情非常不同。在接下来的20分钟里,我将展示如何将这一概念融入我们的营销策略,使我们的投资回报率提高12%。”
- 使用实物、引语或惊人事实:对于其他类型的商业问题,你可以带一件导致公司工厂出现问题的故障设备;可以大声朗读一封真实的客户服务请求,以例证你的建议试图解决的问题;或者以一个戏剧性的统计数据开场。
- 发起对话:另一种吸引听众的方式是发起实际的对话。你可以通过提问来开始演示。例如:“如果你的父母或任何你认识的75岁以上的人,可以选择阅读一封实体邮件或在手机上阅读博客,你认为他们中有多少人会选择在手机上阅读博客?”然后接着问:“那么,你们的孩子或25岁以下的家人中,你认为有多少人会选择手机上网选项?”由于回应第二个问题举手的人会更多,你可以接着说调查统计数据与刚才的小投票结果一致,而你将利用这些信息来改进营销策略。
无论你使用哪种故事元素或策略,试着找到真正能激励你自己的东西,因为如果你被打动了,你的听众也会被打动。请记住,在演示开始时,你只有大约30到60秒的时间来吸引听众。所以,无论你决定用什么来吸引他们,都必须相对快速。
更多实用技巧
在结束之前,这里还有几个在演示中使用故事元素、段落或小插曲来吸引听众的技巧。
- 从中间开始:与其从故事的最开始讲起,不如从中间开始,让角色已经处于行动之中。这可以创造一种动感和对接下来发展的期待,有时是引出你商业建议的有效方式。
- 描述角色并赋予质感:尽可能描述你的角色,给他们增添细节。例如:“乔伊斯是我们来自俄亥俄州阿克伦的忠诚维生素客户。她42岁,会说法语,她的朋友们都说羡慕她永久的精力和乐观的生活态度。”保持描述简短,但使用具体细节,它们能增加可信度并提升信念感。
- 使用积极信息的故事:尽可能使用传递积极信息的故事,而非消极信息的故事。如果一个开场故事片段成功地引发了负面情绪,如恐惧或厌恶,这些负面感受可能会持续。心理学实验表明,你的听众可能会将这些残留的负面感受误解为对你逻辑论证的不赞同,而不仅仅是开场故事留下的余味。
- 高质量使用图片:使用非常高质量的图片,并尽量使其全屏显示。此外,使用那些人物直视着你、或者能给观众一种身临其境视角的图片。高分辨率、直视他人面部以及戏剧性的几何透视,在激发情感和让你所说的内容感觉真实方面非常有效。
总结
本节课中,我们一起学习了如何让数据故事生动呈现。虽然没有一个公式能保证某个故事元素、段落或机制能在每位听众身上引发你想要的确切情绪,但本视频所讲的内容是一些很好的指导原则。
每当你不知如何传达数据故事的重要性时,请认真思考是什么动力支撑你完成了所有分析。想想是什么让你兴奋,是什么让你担忧,困难是什么。想想所有受你所解决问题影响的相关方,由于那个问题他们的生活是怎样的,以及现在他们的生活将如何变得更容易。

一旦你开始感觉到心率变化,或者脑海中开始浮现生动的画面,你就会知道该用什么情感背景来开场和结束你的演示了。
117:故事板化您的演示 📊

在本节课中,我们将学习如何通过“故事板”来规划和优化演示文稿的结构与顺序。我们将了解故事板的作用、创建步骤以及关键原则,确保您的数据故事能够清晰、有力且逻辑连贯地传达给观众。
我们已经讨论了演示文稿的整体结构,以及情感钩子和明智建议如何为您的数据提供背景。
在本视频中,我们将探讨如何确定演示文稿中幻灯片的特定顺序,包括在演示核心部分专门用于展示数据的幻灯片。
您将通过故事板来完成这项工作。故事板是识别您流程或故事中关键场景,并将其按逻辑顺序排列,以引人入胜地传达信息的过程。
故事板本质上是一种为演示制定计划的方法,您可以清晰地表达并与他人沟通,从而获得反馈并协同完善演示。
使用故事板的原因如下:首先,它迫使您理清假设和主张的逻辑。其次,它能揭示逻辑中的漏洞。第三,它提供了协作、接收反馈和团队合作的机制。第四,它简化了幻灯片准备过程,避免了不必要的工作。
此外,越来越多的公司要求分析师为公司的不同群体制作多个并行的故事板,而不是为整个公司制作单一的仪表板。因此,为您自己的演示制作故事板,将有助于您理解客户在公司故事板中可能想要什么。
在数据项目结束时,为演示制作故事板的步骤,与您在项目开始时制定分析计划的步骤有许多相似之处。然而,也存在一些差异,因为这次您真正要做的是精简到传达数据故事所需的最少场景数量,而不是包含任何可能重要的场景。
此外,这次您需要考虑的是,在每一个场景中,哪种可视化方式能最好地传达信息,而不是哪种可视化方式能帮助您分析海量信息。
更重要的是,演示故事板的一个关键方面是您组织场景的精确顺序,以及如何为观众将它们串联起来。这个顺序可能与您实际完成分析的顺序大不相同。
尽管如此,故事板的具体过程仍然需要您拿出便利贴、索引卡或您在项目开始时用于制定分析计划的计算机程序。您可以使用其中任何一种方法。但为了简单起见,在本视频的其余部分,我将假设您在使用便利贴来描述这个过程。


故事板过程始于头脑风暴,写下您在分析过程中发现的、对您得出结论和提出商业建议至关重要的每一个见解。
每个见解都需要写在单独的便利贴、索引卡或软件程序的独立方框中。便利贴上的每个要点或细节都应被视为一个“故事点”,最终将拥有自己的图表和自己的幻灯片。
每个故事点应该能够用一句话来概括。如果需要更多句子,那就太复杂了,应该分解成单独的故事点。
一旦您把所有内容都写下来,就需要无情地削减您的故事点,直到只剩下那些对于证明您提出的业务流程变更建议绝对至关重要的部分。
根据经验,您应该尝试拥有不超过三个主要故事点,并且每个主要故事点不应超过三个子点。三个项目大约是大多数人一次性能处理的复杂度的极限。因此,您添加的每一个超出此限的点,都必须能带来足够大的价值,以克服观众可能表现出的注意力不足。
请注意,这个精简步骤看似简单实则困难,这说明了制作一个简洁的演示文稿本身有多难,以及为什么数据团队需要花费很长时间来制作它们。然而,这也是您能获得最大回报的地方,因此值得投入相当的精力和注意力。
一旦您精简了故事点,下一步就是根据您计划讲述它们的顺序来组织它们。这个顺序应该反映您认为最能支持您建议的、最具说服力的逻辑论证,而不是您实际进行分析的顺序。请记住,这是一个关于“他们应该做什么”的演示,而不是关于“您在过去的6到12个月里做了什么”的演示。
以下是几个可以帮助您确定故事点顺序的指导原则:
如果您的建议不会引起很大争议,我建议首先展示您最有力的故事点,以便尽快获得观众的认同,从而防止观众对您的故事失去信心。
我意识到这可能听起来有违直觉。例如,电影通常不是等到最后才出现高潮吗?是的,它们是这样。但说服的艺术与娱乐的艺术并不相同,尽管它们有时会重叠。
也就是说,如果您的商业建议会引起争议,我建议您采用不同的策略。在这种类型的场景中,首先从您最不具争议性的观点开始。心理学文献告诉我们,如果您能让人们首先产生一种普遍的认同感,他们就更有可能被一个论点说服。因此,从最不具争议性的观点开始,您会让您的观众习惯于说“是”,然后再向他们提出他们可能想说“不”的内容。
下一点可能看起来很简单,但您会惊讶于人们不遵循这一指导原则的频率有多高。
确保您在提出论点之前或同时,展示说服该论点所必需的数据。如果某个故事点所需的说服数据依赖于另一个故事点的数据,请按顺序排列这些故事点。不要倒序展示。您的观众不会在您最终展示相关数据之前,保留对您论点的判断。相反,他们会因为您让他们如此费力地去理解您试图说服他们什么而感到恼火,这反过来会使他们更不愿意同意您论点的任何部分。
一旦确定了故事点的顺序,您需要在便利贴上快速勾勒出最能传达每个故事点的可视化图表类型。
这是过程中一个很好的节点,提醒自己演示的主要背景是您的观众。当您写下故事点时,请确保其详细程度适合您的观众。大多数非分析师不想了解您模型中的参数、置信区间,或者您在过去的几个月里不得不担心的几乎所有细节。正如我之前建议的,将这些细节放在讲义中,使其不出现在演示的故事点里。
为每张幻灯片勾勒图表将帮助您确保不会花费大量时间格式化那些您不会使用的不同图表,它还将帮助您发现视觉主题,使您的演示具有更统一的外观。最重要的是,勾勒图表将使其他人更容易查看您的故事板,并了解您的设想。
这引出了故事板的最后一步,即在向最终决定您建议结果的人演示之前,尽可能多地将您的故事板分享给其他人。特别是,您需要请其他人检查您论证的逻辑,并确保其是合理的。我称之为“压力测试您的故事”。这将是我们在下一课中要学习的内容。


在本节课中,我们一起学习了如何通过故事板来规划和优化演示。我们了解了故事板的定义、作用、创建步骤(包括头脑风暴、无情精简、逻辑排序、可视化草图和分享反馈),以及针对不同争议程度的建议排序策略。掌握故事板技巧,能帮助您构建逻辑清晰、重点突出且极具说服力的数据演示。
118:寻找最佳压力测试者

概述
在本节课中,我们将学习如何通过团队协作来检验和完善你的数据分析故事。核心目标是找出逻辑和假设中的所有潜在漏洞,确保你的数据故事在呈现给决策者时是坚实可靠的。
当你已经梳理好数据故事的逻辑框架后,下一步就是尽一切可能去“拆解”它。
你需要找出所有可能存在的错误,并加以改进。

在此步骤中,你的目标应是识别出论证逻辑中的所有潜在漏洞,或是你在构建论证时所依赖的背景与动机假设中的问题。这样,你的数据故事在最终呈现给那些决定你建议命运的人时,才能做到完美无瑕。
团队协作的重要性
在商业环境中,这一步应与你的团队共同完成。以下是来自Airbnb的数据科学家Lindsey Penttingil的分享,她讲述了在构建数据故事时如何向团队寻求反馈。
我是团队中唯一的数据科学家,团队里还有工程师和产品经理。
我总是喜欢把初步想法发给团队,比如:“嘿,各位,我研究了一下这个问题,这是我的初步想法。”团队中有人比我更了解我们的产品,他们可能会说:“等等,这个检查点太离谱了”,这对我帮助极大。也可能有其他人说:“哦,这个想法很棒,但你有没有考虑过这个方面?”我可能具备某些特定技能,但其他人拥有的不同技能集,对我处理问题的方式来说同样极具价值。
广泛寻求反馈
我建议你尽可能向所有人征求关于故事板的反馈。

不仅要向数据分析团队的其他成员寻求反馈,也要向利益相关者寻求反馈。他们可以告诉你,你的假设是否偏离了基础,或者你的建议是否不切实际。
一开始你可能会对此感到紧张,但数据分析团队是协同工作的。
每个人都可以进步,每个人也都会犯错。当团队协作时,成果几乎总是优于单打独斗。
让我们听听Airbnb数据科学团队经理Elleana Gray Wall对于获取反馈和犯错的看法。
我们犯错的次数太多了,我有很多这样的例子。但我想说的是,在任何团队中,建立一种“主动报告错误并为此感到庆幸”的文化非常重要。我们要理解每个人都会犯错,而最重要的事情实际上是当你意识到自己犯错时,能够说出来,这样我们才能纠正它。我认为公司最大的问题往往出现在有人犯了错,却因为害怕或担心而不敢提出来。所以,这绝对是我们文化中非常重要的一部分。
识别常见逻辑谬误
显然,每次分析的具体情况都会不同。
但接下来的系列视频将介绍一些常见的、会让人陷入麻烦的逻辑谬误。请务必在你自己的数据故事中留意它们。
同时,当你在帮助他人完善其数据故事时,也要注意这些谬误。
如果在观看接下来的视频后,你渴望获得更多资源来帮助你熟练掌握识别论证不一致性和逻辑错误,我建议你考虑购买相关书籍或选修一门逻辑与推理课程。
深入学习逻辑与推理
甚至在Coursera平台上也有一些关于逻辑与推理的优秀课程。
学习逻辑知识总体上将非常有助于你学习如何构建和解读数据分析。

它也会让你更有信心去构建无懈可击的论证,并识别论证何时、为何是脆弱的。
如果你能找到时间学习一门关于构建逻辑论证的课程或阅读一本教科书,我相信你不会后悔。
与此同时,接下来的几个视频将带你入门,学习如何识别数据分析中最常见的逻辑谬误。
总结
本节课中,我们一起学习了如何通过团队协作来“压力测试”你的数据故事。我们了解到,主动向团队成员和利益相关者寻求反馈至关重要,这能帮助你发现逻辑漏洞和错误假设。同时,我们也认识到建立一种不怕犯错、勇于纠错的文化的重要性。最后,我们预告了后续课程将深入探讨数据分析中常见的逻辑谬误,为构建更坚实的数据论证打下基础。
119:过度泛化与样本偏差 🧐

在本节中,我们将探讨数据分析中两个常见的逻辑陷阱:过度泛化与样本偏差。它们会如何削弱你数据故事的说服力,以及如何识别并避免它们。
过度泛化
上一节我们讨论了数据故事的重要性,本节中我们来看看一个会破坏故事逻辑的常见问题:过度泛化。
过度泛化发生在你假设自己数据集中看到的情况,会与任何其他旨在评估相同信息的数据集中看到的情况完全一致时,尽管你的数据量可能非常小,或者有时是一个经过筛选的子集。
当数据集中观察的样本量很小或存在高度偏差时,你尤其容易犯过度泛化的逻辑谬误。在我们对数据相关工作的分析中,例如,你首先应该思考的问题之一是:数据相关工作的薪资对美国公民和非美国公民是否相同?毕竟,我们的薪资信息存在高度偏差,因为它只反映了提供给非美国公民的薪资。我们可以假设并尝试测试这些薪资是否与美国公民的薪资相同,但我们不应直接假定它,特别是因为可能还有其他与美国和非美国求职者相关的因素,会独立地影响提供的薪资。其中一个因素是性别。事实证明,为男性提交的技术工作签证数量远多于女性。这意味着美国公民女性的薪资中位数,可能与我们数据样本中看到的薪资情况大不相同。
大样本的局限性
你可能会认为,只要拥有足够大的数据集,就应该能够克服大多数类型的抽样偏差。不幸的是,任何分析过智能手机数据的人都会告诉你,大样本量也无法完全让你免受偏差的影响。
如今人们分析的一些最大数据集来自智能手机数据。然而,智能手机在较富裕和较年轻的人群中拥有率不成比例地高。这意味着,每当你使用智能手机数据时,你获得的信息都会偏向于年轻和富裕的群体。如果你没有意识到这一点,就可能导致糟糕的决策和不准确的预测。
以下是一些现实生活中的例子:
- 许多团体曾尝试分析卡特里娜飓风和桑迪飓风期间的推特数据,以确定是否有可能通过分析推文来获取自然灾害期间灾区的实时更新。结果发现,纯粹基于推文的模型无法反映灾后现实的滞后情况,因为存在所谓的“数据阴影”,即来自平均社会经济地位较低地区的数据缺失。
- 类似的数据阴影在波士顿市使用智能手机的加速度计数据结合GPS数据来识别路面坑洼时也造成了问题。该程序最初在识别高收入地区的坑洼方面做得很好,但在低收入地区却遗漏了很多坑洼。
当然,过度泛化最困难的方面之一是,要发现你的样本从一开始就存在偏差,可能需要大量的调查工作。通常,团队直到他们的预测开始失败时,才会开始深究他们的数据集究竟来自哪里。
Airbnb的案例


以下是来自Airbnb数据科学团队的经理Ela Gray Wall的分享,她讲述了一个发生在Airbnb数据类型上的例子,并分享了关于如何发现由过度泛化引起的错误的看法。
通常,错误不一定是分析错误,但确实存在数据的行为方式与你假设的方式不同的情况。我们有很多这样的案例,比如你以为自己在看一张包含旧金山所有房源(Airbnb上所有在旧金山的房屋)的数据表,然后你意识到这实际上是所有房源的一个子集,因此我们的结论并非我们最初所想的那样。这种情况经常发生。所以我认为,对数据质量保持一种近乎偏执的警惕,实际上是防止错误的最大方法之一。
我将其视为培养一种数据直觉。就像你有一种感觉,觉得某些地方不太对劲,这肯定来自于经验。当你对你正在查看的数据非常熟悉时,你可以说:“等等,我知道平均百分比是这个,为什么在我的表中不一样?肯定有问题。”这对于帮助防止错误无疑非常重要。
缺失数据带来的偏差
过度泛化让你陷入麻烦的另一种情况是,你的数据集中有大量缺失数据。
通常,你会发现数据中的某些行在一些列有数据,但并非所有列都有。一个常见的处理方法是,在进行需要缺失数据列中条目的分析时,完全将这些行从数据集中移除。然后你继续进行你的分析,就好像你从未知道数据缺失过一样。

有时这没问题。但其他时候,缺失的数据可能都来自同一个群体,例如,可能是因为从安卓手机收集数据的方式出了问题,所以所有安卓手机用户的数据都缺失了。当出现这种情况时,从你正在分析的数据集中移除缺失数据,将会系统性地使你的样本产生偏差。因此,你得到的结果可能与拥有更具代表性样本时得到的结果不同。
如何避免过度泛化陷阱
以下是帮助你避免陷入过度泛化陷阱的一些建议。
首先,始终、始终对你的数据收集方式提出大量问题。留意收集方法可能如何使你的数据产生偏差的线索,并寻找方法来测试你所拥有的数据是否存在对特定人口群体的偏差。
其次,始终检查你所观察的所有群体中有多少个数据点。如果你从特定群体、子类别或时间点获得的数据点不多,就不要过分看重你在那里看到的效果。
第三,如果你确实拥有大量数据,将完整数据集随机分成3到5个子集。观察你在每个子集中看到的效果是否与在整个群体中看到的效果相同。如果不同,在解释整个群体的结果时要谨慎。很可能这种效果要么是由于偶然性,要么并不那么大,要么只在你应该追踪和描述的某个特定数据子集中发现。
第四,在从分析中移除异常值或具有某些缺失数据的行之前,始终检查这些异常值或行是否存在任何看似常见和/或独特的特征。如果存在,你可能需要尝试收集更多具有这些特征的数据来填补你将要排除的部分。至少,当你从数据中移除这些条目时,你需要意识到你正在如何使结果产生偏差。
总结

本节课中,我们一起学习了数据分析中的两个关键陷阱:过度泛化与样本偏差。我们了解到,即使是大样本也无法完全避免偏差,并且通过Airbnb等实际案例看到了这些问题的具体表现。最重要的是,我们掌握了一系列实用的检查方法,包括质疑数据来源、检查样本量、进行子集验证以及谨慎处理缺失数据,以帮助我们在未来的分析工作中构建更可靠、更具说服力的数据故事。
120:因缺乏对照组导致的误读 📊

在本节课中,我们将学习数据分析中一个至关重要的概念:对照组。我们将通过一个虚构的营销案例和一个来自Airbnb的真实案例,理解为什么缺乏对照组会导致对数据的严重误读,并学习如何避免这种错误。
一个营销案例的误读
想象你在一家销售含有奇亚籽的有机饮料的市场团队中。你的团队花费了大量资金,发送了一封包含优惠券的、极具吸引力的电子邮件广告。你想评估这次广告活动是否有效。你的团队成员向你展示了下面这张图表。

观察这张图表,你认为这次邮件营销活动成功吗?这张图表似乎表明活动非常成功,因为活动后的销售额明显上升了。
现在,假设我给你看下面这张修改过的图表,它包含了在同一时间段内你竞争对手的销售数据。当时只有你的公司进行了促销活动。
观察这张图表,你认为这次邮件营销活动成功吗?这张图表讲述了一个截然不同的故事。看起来,尽管你的竞争对手没有发送任何电子邮件广告,但他们的销售额也上升了。
这个版本的图表表明,你的邮件营销活动很可能与销售额的增长无关。当你深入调查后,你发现一位成功减肥的名人,在你的邮件营销活动前后接受了一次采访。在采访中,他说他减肥的秘诀是喝奇亚籽饮料。结果,人们开始购买各种品牌的奇亚籽饮料,而不仅仅是你的品牌。
如果你在分析中没有包含我们称之为“对照组”的内容,你可能永远无法发现这一点。对照组是指那些你认为不应该产生你所测试效果的比较组。
需要澄清的是,你的邮件营销活动仍然可能是有效的。这张图表可能显示你的销售额比某些竞争对手增长得更多。如果是这种情况,你需要记住,你的邮件营销活动之所以有效,可能仅仅是因为你幸运地在名人采访的同一时间发送了邮件,而那次采访激发了人们购买奇亚籽饮料的欲望。你不能过度概括,并假设同样的邮件营销活动在其他情况下也会带来相同的销售增长。
Airbnb的真实案例
这个奇亚籽饮料的例子是虚构的。现在,让我们再次听听Airbnb数据科学团队的经理埃莉诺·格雷·沃尔的分享,她将告诉我们一个对照组如何帮助Airbnb分析团队的真实案例。
“这确实关乎影响力。我认为在Airbnb数据科学部门工作最棒的一点是,你能看到自己带来的数据如何真正塑造公司的方向。一个很好的例子发生在我几年前刚加入公司时。正如我提到的,我们与运营团队紧密合作。当时全球有很多举措,强调给房东打电话,帮助他们改进房源信息,以此帮助他们获得成功。当时我们并没有将其作为一项实验来运行,而是由客服人员以有点临时的方式给房东打电话并提供帮助。然后,我们会查看房东在接到电话后的表现,并与未接到电话的房东进行比较。但问题在于,那些被选中的房东,本身可能就是更容易成功的人群。”
“因此,我们最终将其启动为一项实验。我们保留了10%的房东作为对照组,不给他们打电话。然后,我们比较了实验组(接到电话)和对照组(未接到电话)房东的表现。大约六到八个月后,我们查看结果。其中一个非常令人惊讶的发现是,平均而言,与对照组相比,实验组房东的表现实际上没有任何提升。这是一个非常重要的发现,它帮助我们集中精力,并改变了我们对这个项目的思考方式。如果没有之前没有进行的、更严谨的数据分析,这是不可能实现的。”
核心要点总结
本节课中,我们一起学习了对照组在数据分析中的关键作用。
以下是本视频的核心要点:
- 始终包含精心设计的对照组:在你的分析中,必须包含那些你认为不应该产生你所寻找效果的比较组。这是确保你观察到的效果确实源于你认为的原因的唯一方法。
- 主动进行对照分析:如果你的数据故事中缺少对照组,请立即去运行一些对照分析。这是确保你正确解读数据的唯一途径。


121:相关性不等于因果性 🔍

在本节课中,我们将要学习数据分析中一个至关重要的概念:相关性不等于因果性。我们将通过生动的例子来理解为什么仅凭数据间的关联就推断因果关系是危险的,并学习如何避免这种常见的逻辑陷阱。
概述
数据分析的核心目标之一是发现规律并指导决策。然而,一个常见的错误是将数据中观察到的“相关性”直接等同于“因果性”。本节课将通过一系列真实且有趣的案例,阐明这两个概念的区别,并解释为什么在商业分析中混淆它们可能导致严重的决策失误。
核心概念解析
在深入探讨之前,让我们先明确几个关键术语的定义。
- 相关性:指的是两个或多个变量在多次测量或时间点上倾向于一同变化的现象。其数学表达通常使用相关系数
r,其值介于 -1 到 1 之间。 - 因果性:指的是一个事件(因)直接导致另一个事件(果)发生的关系。例如,代码
if (punch) { blackEye = true; }模拟了“击打导致黑眼圈”的因果关系。 - 巧合:指纯粹由于偶然,两件事同时发生。
- 虚假关系:指两个变量由于偶然或某个未测量的变量而表现出相关性,但彼此之间并无直接的因果关系。
一个引人深思的例子
上一节我们定义了核心概念,本节中我们来看看一个生动的例子,它完美展示了相关性与因果性的区别。
请看下图。如果我说蓝线代表市场营销预算(美元),红线代表产品购买量,你们中有多少人会认为增加营销投入会导致客户购买量上升?

然而,这张图实际显示的是:蓝线是尼古拉斯·凯奇每年参演的电影数量,红线是每年因跌入泳池而死亡的人数。这不是玩笑,数据来自美国疾病控制与预防中心和互联网电影数据库,是真实数据。
如图所示,多年来这两条线似乎存在明显的关联。现在,知道了真相,你们中有多少人还认为尼古拉斯·凯奇的电影数量导致了泳池溺亡人数增加,或者反之?
我推测,对于第一张图(营销预算与购买量),不少人愿意相信存在因果关系。但对于第二张图(电影与溺亡),愿意相信的人就少得多。你们的直觉是正确的:尼古拉斯·凯奇的电影并不导致溺亡,溺亡也不导致他出演更多电影。
当两组数据的匹配度很高时,从心理上很容易认为你测量的一个事物导致了另一个。观众也容易产生同样的联想。然而,正如这个古怪的例子所示,仅仅因为两个变量相关或看似关联,绝不意味着一个导致了另一个。相关性不等于因果性。
虚假关系的可能原因
那么,如何解释尼古拉斯·凯奇电影与泳池溺亡之间的这种强相关性呢?这很可能是一种“虚假关系”,由某个“未测量的变量”导致。
以下是可能的解释:
- 未测量变量:夏季活动。尼古拉斯·凯奇常出演在夏季上映的大片,尤其是在有大型活动的夏季。同时,人们主要在夏季去泳池,有大型活动的夏季可能举办更多泳池派对。
- 结论:因此,电影数量和溺亡数量高度相关,可能是因为它们都共同关联于“夏季”这个未在图中直接测量的变量。这只是一个假设,但它很好地解释了为何我们看到了虚假的相关性。
商业分析中的危险
现在我们明白了这些术语,让我们回到为什么“相关性不等于因果性”这个问题对商业分析如此危险。
如果你分析数据的目的是决定如何改进业务流程,那么你意图做出的改变应该是能导致业务提升的。如果你的建议仅基于显示相关性而非因果性的图表,那么你的建议可能无效,甚至更糟,可能导致业务表现下降。
让我们看一个清晰的商业案例。
假设你通过分析发现,公司的网络安全漏洞数量与其网络安全部门的工程师数量呈正相关。这出乎你的意料。于是,作为一名优秀的分析师,你找了另一组公司数据来验证,并复现了这一结果。
基于此数据,你可能会推断:拥有更多网络安全工程师导致了更多的安全漏洞。因此,你建议公司裁减工程师。
然而,如果你这样做,后果将是灾难性的。公司很可能会遭遇更多的安全漏洞。因为真实情况是:安全漏洞增多导致公司高管寻求工程师的帮助,而不是反过来。工程师数量的增加可能未能完全解决问题,但如果你解雇所有工程师,你将毫无机会解决安全问题。
一个更微妙的营销案例
既然大多数人都知道,如果不采取保护措施,就无法应对网络安全漏洞,上面的逻辑错误相对容易识别。
但如果我把图表标签换成“网站上的广告尺寸”和“点击率”呢?点击率指的是看到广告链接的用户中点击它的百分比。
这张图显示,广告尺寸越大,点击率越高。请想象你是一名负责营销项目的数据分析师,刚入职,非常想给老板留下好印象。经过几天数据收集和清洗,你终于在 Tableau 中看到了这张图。
认真思考一下:在这种情况下,你是否会倾向于认为“更大的广告导致了更高的点击率”?你是否会急于得出结论,认为公司应该投资更大的广告?
如果是,那么你现在就能体会到,为何误解相关性在商业中如此普遍却又如此危险。这个结论听起来诱人,但图表上的数据并不比安全工程师与安全漏洞的例子更能支持因果关系。在没有进一步信息的情况下,建议企业投资更大的广告,将是一个风险很高的财务建议。
总结
本节课中,我们一起学习了数据分析的基石原则:相关性不等于因果性。我们通过尼古拉斯·凯奇电影与泳池溺亡的古怪关联,理解了相关性与因果性的本质区别。随后,我们探讨了这种混淆在商业决策中的巨大风险,无论是网络安全还是营销投入的案例都表明,基于虚假关系做出因果推断可能导致严重的负面后果。
那么,什么样的信息能让“投资更大广告”的建议风险降低呢?我们将在下一个视频中寻找答案。


122:相关性如何影响商业决策 📊

在本节课中,我们将探讨如何基于相关性做出商业决策。我们将学习如何权衡风险与收益,并了解在无法确定因果关系时,如何通过测试和谨慎分析来降低决策风险。
我们已经讨论过,将相关性误解为因果关系对商业分析是危险的。本节中,我们将探讨当你需要基于相关性做出商业决策时,应该怎么做。
你经常需要基于相关性做出决策或提供建议。处理这些情况的方法是:权衡如果相关性是因果关系时你能获得的收益,与你所提建议的成本以及做出错误决策的代价。
如果损失风险不大,基于“希望相关性代表因果关系”来提出商业建议是合理的。另一方面,如果你的商业建议需要投入大量资金,或者出错可能对公司、人员或声誉造成重大损害,那么你就需要比单纯的相关性分析提供更高的确定性。
在这些情况下,你应该寻找方法,在风险较低的小规模试点场景中测试你的建议,然后再建议进行全面变革。一个重要的推论是,即使你的高管被图表展示的相关性说服,想要立即进行全面变革,你也有责任缓和他们的期望,并建议采取分步实施的策略,以最小化风险并确保商业变革的成功。
以下是你可以采取的一些措施,以在这些情况下最小化风险。
在理想情况下,你会确定你所看到的任何相关性是否源于真实的因果关系。😊
要确定一件事是否导致另一件事,唯一的方法是使用科学方法进行测试或实验,即改变你认为导致效应的变量,并保持其他所有条件不变。

这样的测试可能非常具有挑战性,因为几乎不可能控制世界上的每一个变量以保持实验条件恒定,但你可以尝试。这就是A/B测试背后的理念。
在A/B测试中,你在完全相同的时间,向不同但独立的访客群体展示网站的两个不同版本。然后分析结果,以确定哪个版本的网站表现更好。

让我们回顾之前视频中关于广告尺寸和点击率的例子。由于点击率似乎与广告尺寸高度相关,我们曾倾向于直接得出结论:公司应该投资大尺寸广告。然而,特别是考虑到广告成本可能很高,一个更安全的策略是申请时间和资金来进行一些A/B测试。
如果我们这样做,可能会发现使用更大的广告并不会提高点击率。相反,在我们最初的样本数据中,所有大尺寸广告都被放在了网页顶部,而小尺寸广告则被放在网页更靠下的位置,客户需要滚动才能看到。
因此,是的,大尺寸广告与更高的点击率相关。但这是一种虚假相关,因为大尺寸广告总是被放置在屏幕顶部。我们的测试表明,影响点击率的真正因素是广告在屏幕上的位置,而不是广告尺寸。因此,如果建议公司投资大尺寸广告,而这些广告最终被放在网页底部,可能会导致巨大的资金浪费。
测试无疑是理解两个变量之间关系本质的最佳方式,但并非总能实施,因为有时测试过于困难或昂贵。
当你无法进行测试时,作为一名数据分析师,你还可以做以下几件事来帮助你评估对所看到的相关性应抱有多大信心。
首先,每当你看到两个实体之间存在相关性,并想据此提出商业建议时,要养成习惯,质疑是否存在其他第三、第四或第五个变量可以解释你所看到的关系。然后,寻找数据来测试这些变量是否是你感兴趣现象的更好衡量指标。
其次,检查你商业建议所依据的相关性是否存在于其他背景或数据集中。你能复现该效应的次数越多,最初看到的相关性源于随机偶然的可能性就越小。
下一个建议是尝试从不同但互补的角度来评估你假设的因果关系。例如,如果你的假设是“更多的安全工程师会导致更多的安全漏洞”,那么当安全工程师被解雇时,你是否看到安全漏洞减少?此外,如果安全工程师的数量导致更多安全漏洞,那么安全漏洞的增加应该发生在雇佣更多安全工程师之后,而不是之前。你的数据是否有足够的分辨率来回答这个问题?如果没有,尝试获取具有足够高时间分辨率的数据。
在我们进入下一个视频之前,关于“相关性不等于因果关系”这个问题,还有几点需要说明。
第一点,你应该知道,随着数据集规模的增大,你因从相关性推断因果关系而陷入麻烦的可能性也会增加。你拥有的数据越多,就越有机会发现仅仅是偶然发生的巧合关系。
第二点,随着数据集复杂性的增加,你陷入麻烦的可能性也会增加。当许多变量高度相关时,你可能会得到一些奇怪的效果:有时你感兴趣的变量与你关心的指标增加相关,但其他时候,同一个变量又与你关心的指标减少相关。这些看似矛盾的效果是由于其他你可能测量或未测量的变量所导致的。
我在自己的研究中经常看到这类效应,你也可能会遇到。我不想深入探讨发生这种情况的统计细节,但希望你记住:你的数据集越大、越复杂,你就应该越警惕对单一相关性投入大量资金。
话虽如此,有两种情况你不那么关心相关性是否代表因果关系:一是当你试图测量一个没有可靠直接测量方法的现象时;二是当你只是试图简单地预测某事发生的可能性时。
如果两个变量之间的相关性是持续且可靠的,那么一个变量可以用来测量和预测另一个变量,即使一个并不导致另一个。问题在于,如果你不知道一个变量为何与另一个变量相关,就很难预测它们何时会停止相关。这正是谷歌遇到的情况。
2009年,谷歌在《自然》杂志上发表论文,声称他们可以“以大约一天的报告延迟,估计美国每个地区每周流感活动的当前水平”。这项研究背后的逻辑是,流感患者经常上网查找治疗方法。因此,如果谷歌能识别出可能与患有流感相关的搜索词,他们就能利用谷歌搜索来测量当前有多少人患有流感,并可能预测近期是否可能爆发疫情。
起初,基于搜索词与流感相关性的谷歌算法表现得相当不错。他们能以约90%的准确率报告某个地理区域的流感人数。但后来这个算法失效了。这是因为搜索词及其算法不再与人们实际患有流感强烈相关。很长一段时间里,没有人注意到。2009年,世界遭遇了猪流感大流行,而谷歌流感趋势完全错过了它。
最终,人们还是注意到了。根据《科学》杂志上发表的一篇论文,在2011年8月至2014年期间,谷歌流感趋势在1008周中有100周是错误的。现在,谷歌已完全停止发布流感预测,并将其项目资源移交给了专门从事传染病研究的学术和联邦机构。
这里的教训不是我们不应该尝试利用相关性的预测或测量能力,而是要认识到“相关性不等于因果关系”这一事实的含义非常重要。
再次强调这个概念:当你不知道两个现象为何相关时,你就无法预测它们何时可能改变相关性。因此,如果一个企业要大力投资于一个他们不理解其成因的相关性现象,他们也需要准备好投资必要的基础设施,以持续监控这种相关性,并在必要时进行调整。你向利益相关者提出的建议应反映这些原则。

总结本节课,以下是我希望你如何思考数据与商业背景(特别是变量间的相关性与商业背景)的方式。
在大多数情况下,数据旨在为人类决策提供信息,而非取代它。因此,你应该将数据视为一种资源,用以增加正确决策的数量,并减少这些决策的不确定性。对于观察到的相关性,应将其视为生成关于公司应如何改进的假设的好方法。只要可能,在设计商业战略和建议时,应纳入对这些假设的测试,然后再建议需要大量资本的投资。
如果无法进行测试,请确保你和你的客户理解假设因果关系和相关性可能带来的风险。即使你使用相关性进行预测或测量无法直接测量的东西,你也需要密切关注你所使用的相关性是否保持稳定。当你不知道一个变量为何与另一个变量相关时,你将无法预测它们之间的关系何时会改变。如果你错过了这种变化,可能会给你和你的公司带来巨大的经济损失。
确保你的数据故事和商业建议能恰当地尊重“相关性不等于因果关系”这一概念。

本节课中,我们一起学习了如何基于相关性做出商业决策。我们探讨了权衡风险与收益的重要性,介绍了A/B测试等验证方法,并强调了在无法确定因果关系时应保持谨慎。记住,数据是辅助决策的工具,理解“相关性不等于因果关系”是避免重大商业失误的关键。
123:为故事点选择可视化图表 📊

在本节课中,我们将学习如何为商业演示选择最合适的图表类型,以清晰、有效地传达数据分析的成果。我们将重点讨论柱状图、折线图和饼图的适用场景,并了解应避免使用的图表类型。
在之前的视频中,我们学习了如何为演示构建故事板并对逻辑论证进行压力测试。现在,是时候制作那些至关重要的演示幻灯片了。在数据项目的这个阶段,你必须决定使用何种可视化图表来传达你所有辛勤工作的价值。
我知道你们中有些人见过像这样的精美图表。或者这样的。这些图表确实引人入胜。你可能非常渴望使用它们。我同意这些可视化图表既美观又有趣。然而,它们通常更适合印刷形式,供人仔细研究和探索,而不太适合用于幻灯片演示。因为它们非常复杂,信息量过大,难以快速处理。
你可能会惊讶于我这么说。但在进行商业演示时,柱状图或折线图几乎总是传达分析结果的好方法,甚至可能是最佳方法。即使在你运行非常复杂的统计模型时,这一点也成立,甚至更为重要。

我建议将柱状图和折线图作为你的默认选择,只有在你有更多时间深入研究可视化科学的细节,或者将可视化用于其他目的(如信息图或杂志文章)时,才考虑其他类型。我知道这对你们中的一些人来说可能有些失望。但请记住,在这类商业场景中,数据可视化的首要目的是传达数据中最关键的部分——那些你花费数月甚至数年时间处理的宝贵数据——以及这些数据如何有力地支持你的建议。
让演示保持有趣的部分,应该通过故事元素来激发听众兴趣、通过你讲述的实际内容以及非数据幻灯片的格式来实现。不要在图表类型上过于追求创意。听众需要花费越多精力去理解你的图表,他们能用于关注你展示的实际内容的精力就越少,他们也越可能将注意力集中在图表的格式上,而不是你希望他们关注的内容上。我们知道,当你这样做时,你就失去了影响他们决策过程的杠杆。因此,请坚持使用柱状图和折线图。

在接下来的几个视频中,我们将讨论一些概念,让你了解使用其他类型的图表为何存在风险,以及在数据分析项目尾声、成败攸关之际,这可能不是你愿意承担的风险。在本课程结束前,我们将再次回到这个视频,整合我们所学的一切,看看如何将使用柱状图和折线图作为默认选择付诸实践。
同时,让我们确保大家对为何以及何时应使用柱状图而非折线图有共同的理解。我还将简要讨论饼图,并告诉你一些绝对不应该使用的图表。


以下是主要图表类型及其适用场景的说明:
柱状图 应用于比较不同组别或类别的度量值,例如不同职位子类别的薪资。柱状图适用于大多数你想展示聚合数据而非原始数据的情况。我认为,在面向非技术背景普通听众的商业演示中,你几乎总是应该展示聚合数据。
折线图 最适合观察数值和类别如何随时间变化,例如我们之前研究数据相关薪资的子类别是否随时间变化时。你也可以使用折线图来展示数值随另一种变量的变化,但请确保该变量具有有序的、连续的、且间距相等的结构,例如按1万美元分组的收入、受教育年限或按1000本递增的图书销量。
折线图的一个危险在于,我们的眼睛会自然地跟随图表中的线条,并将其解读为线上的点之间存在某种直接的顺序关系。因此,当这些点没有明显的顺序关系时,我们需要更长的时间来理解图表所展示的内容,并且实际上很有可能误解图表试图表达的观点。
例如,如果我们用折线图表示这些信息,最自然的解读会是我们应该理解存在某种地理效应,因为城市位于X轴上。但随后我们会困惑为什么国家的各个地区是这样排列的。顺序看起来是任意的,我们的注意力会被引向试图弄清楚这一点,而不是关注一月和二月之间的差异,甚至是国家不同地区之间的差异。
所以现在,想象一下你将图表格式化为这样的柱状图。使用这个图表,你的眼睛会立即尝试比较不同的类别,而不是试图将类别联系在一起。
因此请记住,当X轴上的刻度没有特定的内在顺序时,应将折线图改为柱状图。
饼图 是第三种你偶尔可能在商业演示中受益的图表类型。但让我提醒你,可视化科学和数据科学界讨厌饼图。我的意思是,真的非常讨厌。在接下来的几个视频中,你将了解原因。与此同时,我想站出来,与可视化社区中最直言不讳的人士持不同意见。
我认为饼图在以下两种情况下可能有用:第一,你试图传达总计为100%的类别;第二,你打算突出显示不超过四个类别,最好不超过两个类别。人们主要担心的问题是,人眼无法察觉空间区域的微小差异。因此,饼图永远无法很好地传达具体或详细的信息,但我相信它们可以很好地传达一般模式,尤其是关于百分比的信息。稍后会有更多关于此的讨论。
散点图 是第四种你可以使用的图表类型,它显示两个变量之间的关系,特别是连续变量。散点图通常用于显示原始数据,尽管也可以像我们在上一个模块中绘制薪资随时间变化的最佳拟合线那样,用它们来显示聚合数据。
我喜欢散点图。它们是我分析数据时最喜欢的方式之一,因为我真的很喜欢同时看到我所有的数据。但我发现散点图对于非技术背景的听众来说过于混乱和令人不知所措。在与技术团队或有统计学背景的人讨论时可以使用它们。但我建议在面向非技术听众的商业演示中省略它们。相反,用像这样的视觉元素来总结散点图的解读,以传达关系,但不要展示其背后的原始数据。
另一种你应该在大多数商业演示中省略的图表是几乎任何类型的3D图表。想看看为什么吗?请告诉我此图表中条形A、C和E的值。现在告诉我此图表中条形A、C和E的值。信不信由你,这些图表表示的是相同的数据。3D图表严重扭曲了数据的表示,使其非常难以解读。
这是另一个例子。在此图表中,项目A占总体的百分比是与项目C相同、更大还是更小?现在再试一次。同样,这些图表绘制的是相同的数据,但3D饼图极大地扭曲了表示,以至于我们许多人会误解它。发生这种情况的部分原因是这些图表中的第三维没有任何意义。它只是为了让图表看起来更有视觉趣味。
如果你想让你图表看起来更精致,可以随意使用斜角或阴影效果,但不要添加另一个维度或使用那些预制的3D图表,除非你想误导你的听众。Tableau在大多数情况下甚至不允许你制作3D图表。
总而言之,在商业演示中你应该重点关注的三种主要图表是:用于比较类别的柱状图、用于展示随时间变化的折线图(有时也用于展示随另一个有序类别的变化),以及用于在突出显示四个或更少类别时传达百分比一般信息的饼图。
不要使用散点图,因为它们更适合技术型听众;也永远不要使用3D图表。

本节课中我们一起学习了如何为商业演示选择最合适的图表。我们明确了柱状图、折线图和饼图的核心适用场景,并了解了应避免使用散点图和3D图表的原因。记住,清晰、准确地传达数据洞察是商业演示中可视化的首要目标。
124:视觉感知神经科学决定可视化成败 👁️📊

在本节课中,我们将学习视觉感知神经科学如何决定数据可视化的成败。理解人眼如何“看见”和“感知”信息,是创建有效图表、影响受众决策的关键。
上一节我们介绍了不同类型的图表。本节中,我们来看看两个影响受众“所见”的强大现象:视觉感知与视觉注意。本视频将重点讨论视觉感知。
视觉感知指的是人们意识到自己看到了什么。为了说明这一点,请看这些浆果看起来成熟了吗?如果你是色盲,你可能会说不成熟。因为你感知或意识到的图像会是这样的。如果你不知道自己是色盲,你就不会知道自己错过了图片中的重要信息,因此也不会意识到自己可能基于此图做出错误的决策。
虽然我们大多数人不是色盲,但我们的视觉环境中存在一些特定的方面,在没有辅助的情况下,所有人都难以精确感知。如果我们没有意识到自己存在特定类型的“视觉盲区”,我们就不会知道何时可能因为所见之物而做出糟糕的决策。同样,如果我们在演示中使用的可视化图表依赖于大多数人相对“视而不见”的特征,那么这些图表将是无效的。
研究表明,人类在感知不同类型差异的精确度上存在明确的层级关系。以下是基于实际感知研究得出的列表,列出了生活中可能需要进行的视觉比较,并按我们感知每种差异的准确度排序。
此处的“准确度”指,当我们认为两幅图像的属性存在特定程度的差异时,判断正确的程度。
以下是人类视觉感知能力的层级列表,从最精确到最不精确:
- 位置
- 长度
- 角度/斜率
- 面积
- 体积
- 颜色饱和度
- 色调
这个列表告诉我们,我们非常擅长感知位置和长度的相对差异。另一方面,我们对体积或颜色的差异则相当“盲目”。你可以自己尝试一下。
现在你已经了解了人类视觉感知事物的能力层级,我们可以回到为什么折线图和条形图如此有效,而其他类型图表效果不佳的问题上。
折线图和条形图依赖于位置和长度的比较,这是我们非常擅长且能精确感知的两种差异。而饼图和气泡图则依赖于面积和体积的比较,这是我们不太擅长精确比较的两样东西。当这些比较以3D形式呈现时,我们的判断能力会更差。
这意味着,我们很难从饼图、气泡图或任何类型的面积图中提取出非常详细的信息。我们只能感知非常大的差异,这些差异可以利用我们后续视频中将讨论的其他视觉技巧来加以利用。但由于这些差异需要非常大,因此它们不应被用来区分超过少数几个组别,理想情况是2个,最多4个,除非可视化的目的只是为了引起对某一个特定组的注意。颜色方面的情况也是如此。
因此,之前我建议坚持使用条形图和折线图,并非出于个人好恶。我们的眼睛和大脑确实不具备感知其他类型图表所依赖的许多差异的能力。因此,依赖这些其他类型的图表来传达你最关键的信息是非常冒险的。
既然你已经听到了我对此话题的强烈观点,我觉得有责任与你分享一个关于何时可以使用条形图和折线图之外图表的著名决策树。该资源的链接包含在课程材料中。但请自行承担使用风险。请记住,该资源建议的许多不同类型的图表可能更适合用于人们有时间仔细研究可视化内容的仪表盘、信息图或网站。对于商业演示来说,当你只有很短的时间去说服非常忙碌的人接受一个可能花费他们大量金钱的事情时,这些图表可能就不那么合适了。

本节课中,我们一起学习了视觉感知神经科学的基本原理。我们了解到,人类感知位置和长度差异的能力最强,而感知面积、体积和颜色差异的能力较弱。这解释了为何条形图和折线图在商业演示中通常更有效、更可靠。理解这些限制,能帮助我们在选择图表类型时做出更明智的决策,从而更有效地传达信息并影响受众。
125:色阶导致的误读

在本节课中,我们将要学习数据可视化中一个常见但容易被忽视的问题:色阶(Color Bar)如何导致信息误读。我们将探讨为什么许多软件默认的色阶设计并不符合人类的视觉感知,以及如何更有效地在图表中使用颜色。


上一节我们介绍了数据可视化的基本原则,本节中我们来看看一个具体的陷阱:色阶。
如果你制作了一个用颜色来编码变量的可视化图表,可视化程序通常会提供不同类型的色条(Color Bar)供你选择。
以下是常见的几种色条类型:
- 彩虹色条:例如这张描绘地球表面重力变化的地图。
- 冷暖色条:例如这张描绘粮食不足人口分布的地图。
- 自定义色条:例如这张描绘网络流量(十亿字节)的地图。
当你观察这些图表时,你会自然地认为应该关注颜色的变化。更具体地说,你至少会隐含地假设:色条上数字刻度的一个物理距离单位,应该等于你感知到的一个颜色变化单位。毕竟,这似乎是色条存在的全部意义。如果情况并非如此,计算机程序为什么允许你制作用颜色编码信息的图表呢?
然而,尽管听起来可能有些不可思议,但事实是,许多分析或可视化程序并非如此。大多数色条的设计方式导致了一个单位的数值变化,并不等于一个单位的感知颜色变化。这尤其因为大多数色条没有控制亮度(Luminance)的吸引注意力的特性,你可以将亮度理解为明亮程度。
为了向你说明这一点,我从第一张图的彩虹色条中选取了两个宽度完全相同的随机色块。然后我放大了色块的颜色和边缘,以便你能看清色条上一个单位的数值变化看起来是怎样的。
你可以清楚地看到,我们感知到的右侧色条上一个单位的数值变化(颜色差异),比左侧色条上的显得更大或差异更明显。右侧色块的边缘看起来像是不同的颜色(黄色和橙色),而左侧色块的边缘看起来几乎是同一种蓝色。
我们在自定义色条上也看到了同样的问题:右侧色块边缘看起来颜色不同(黄色和近乎橙色),而左侧色块边缘看起来几乎是同一种紫色。
这意味着,你眼睛感知到的颜色差异,与颜色本应代表的数值差异之间,并没有清晰的映射关系。
我在之前的视频中已经提到,我们人类本身就不擅长精确分辨微小的颜色差异。除此之外,我刚才还向你展示了,大多数色条上的一个单位,并不等于我们感知到的一个单位的颜色差异。如果将这两种现象结合起来,你会发现,几乎没有人能快速准确地分辨出大多数软件生成的典型色阶图之间的定量差异。
尽管如此,彩色热图仍在被广泛使用,计算机程序也继续采用那些会误导人的色阶。例如,正如我们在上一个模块中看到的,Tableau 迫于压力允许我们制作这样的图表,尽管我们的眼睛和大脑在生理上并不擅长很好地解读这类信息。这是“最佳实践”不等于“常见做法”的又一个例证。
话虽如此,我并不希望你认为颜色在图表中毫无用处。当你非常确信你的受众能够感知颜色差异时,颜色可以有效地表示不同组别之间的定性差异。然而,依赖颜色来很好地代表你的不同分组并不是一个好主意。因此,在实践中,这意味着你能用颜色表示的类别数量存在一个上限,因为超过某个点,颜色之间会开始看起来过于相似。

色阶图本身也可能有用。如果你只想说明一个定性模式,而不在乎受众是否能解读具体数字,那么色阶图是有用的。像下面这样的图片可以有效地说明非洲大陆粮食不足人口比例远高于其他大洲。

然而,它无法有效地显示任何一个国家粮食不足的具体水平,因为这需要我们的眼睛和大脑所不具备的感知精度。
本节课中我们一起学习了色阶在数据可视化中的潜在问题以及如何正确使用颜色。以下是本视频的核心要点总结:

- 不要试图通过颜色来传达连续变量的详细和细微信息。你和你的观众都很可能错误解读图表。
- 如果出于某种原因,你必须使用渐变色条来表示连续变量的详细信息,建议你使用从黑到白的灰度色阶,而不是多色色阶。黑白渐变往往比彩色渐变具有更均匀的过渡。
- 虽然不应使用颜色来表示详细模式,但如果你想说明非常普遍和明显的模式,可以考虑使用连续变量的颜色编码。
- 此外,只要类别数量不多,高度不同的颜色可以有效地表示分类变量中的不同类别。
- 有效使用颜色的最后一种方式是突出显示你希望受众注意的内容。这正是我们将在下一个视频中学习如何做的。
126:视觉对比引导观众视线 👁️

在本节课中,我们将学习如何通过视觉设计来控制观众的注意力,从而更有效地传达数据故事。我们将探讨视觉显著性的概念,并学习如何利用对比原则来引导观众的视线,确保他们关注到图表中最重要的信息。
上一节我们介绍了控制观众决策过程的关键在于控制其注意力。本节中,我们来看看如何通过视觉设计来具体实现这一点。
当你自己分析数据时,你会审视所有数据并决定哪些部分是重要的。相反,当你向观众传达数据故事时,即当你告诉观众他们为何应该关心你从数据分析中学到的东西时,你已经决定了哪些部分是重要的。你的目标是只向观众展示他们做出决策所需的数据。
这意味着,用于数据分析或探索的最佳可视化图表,通常并非讲述有说服力的数据故事的最佳选择。用于分析的可视化应尽可能多地展示数据。用于说服的可视化则应展示经过筛选的数据片段,并将观众的视线引导至支持你论点的精确数据点上。
理解视觉显著性
我们的视线会被环境中突出的事物所吸引。你需要有意识地手动设计和格式化演示文稿中使用的图表,以确保其中突出的内容正是你希望观众关注的部分。
环境中吸引你注意力的事物被称为具有显著性。这意味着它们相对于周围环境显得突出。人脑虽然非常强大,但一次只能处理有限的信息。因此,在进化过程中,我们的大脑发展出专注于环境中重要事物并过滤掉其他一切的能力。
在自然界中,最重要的事物通常与食物、危险、繁殖相关,而这些事物最好通过颜色、亮度、大小、形状和空间方向等视觉特征来识别。因此,最能吸引我们注意力的是那些具有与背景显著不同特征的事物。
以下是几个例子,说明不同特征如何影响显著性:
- 颜色对比:一个红色小球在一堆灰色形状中。
- 大小对比:一个大型形状在一堆小型形状中。
- 形状对比:一个三角形在一堆圆形中。
当一个对象没有至少一个与背景完全不同的低级视觉特征时,它将难以被看到,你的视线倾向于在整个画面中游移,而不是聚焦于一个对象。
应用于商业演示
在商业演示中,你希望避免观众视线分散的现象,因为当你失去观众的视觉注意力时,你也失去了对其决策过程的控制。
让我们看看这如何应用于我们的数据故事可视化。如果一个图表包含过多未加区分的元素(例如一个具有11种不同颜色和大小的扇区的饼图),观众的视线将无处聚焦,图表也无法有效传达信息。
我们可以利用低级对比原则来改进图表。以下是具体方法:
首先,使用颜色对比。通过将图表元素简化为两个对比色(如灰色和橙色),可以显著减少视觉负担,明确需要关注的两类事物。
进一步,我们可以强化对比,使关键数据点(如橙色部分)在视觉上最为突出。这能立即将观众的视线引导至故事中重要的部分。你可以使用“眯眼测试”来验证:眯眼看图表,使其文字变得模糊,你仍然能看出图表想要传达的主要信息吗?如果能,说明视觉对比是有效的。
重要提示:颜色是编码类别(如“这很重要”和“这不重要”)的有效方式,但不是传达定量信息细微差异的好方法。我们的眼睛难以察觉颜色的微小差异,尤其是屏幕上存在多种颜色时。
专家技巧:处理图表边框
图表中影响注意力的颜色可能不止你主动设置的那些。例如,图表默认的黑色边框也会产生对比,可能与你想突出的颜色(如橙色)形成竞争,削弱其显著性。
因此,最佳做法是移除图表边框,或至少将其设置为与幻灯片背景相同的颜色。Tableau 默认会这样做,但像 Excel 等程序的旧版本通常不会,因此你需要手动格式化边框。
案例分析:条形图对比
让我们回顾 Tableau 课程中的一个数据集示例。如果将“职位子组”同时放在列架子和颜色属性上,会产生一个包含多种颜色的条形图。观众很难判断你希望他们关注哪个子组。
通过应用颜色对比原则,将除目标子组(如“软件工程师”)外的所有条形设为灰色,并将目标条形设为醒目的橙色,可以立即将观众的注意力引导至正确的位置。
从这个例子中,我们可以得出两个要点:
- 第一个多色条形图适合深入分析数据,因为它利用了人眼善于检测长度差异的特点,并使用颜色标示类别。但它不适合讲述数据故事,因为它没有告诉观众需要关注数据的哪一部分。
- 在改进后的图表中,观众的注意力可能在橙色条形和最长的条形之间略有分散,因为它们都以某种方式与图表的其余部分形成对比。需要警惕这种情况,因为它可能导致你失去对观众视线的控制。
如果由于某些原因必须使用这种格式的图表,请确保通过你的口头叙述来强调对故事最重要的部分。此外,考虑你的图表是否真的是描述故事的最佳方式。例如,如果你的故事线是“软件工程师的薪资处于中等水平”,使用这个图表可能没问题(尽管按顺序排列条形会更好)。但如果你的故事线是“软件工程师的薪资非常高”,观众会不由自主地注意到还有三个类别的薪资更高,这可能会削弱你的论点。为了防止图表破坏你的论证,你应该要么展示不同的数据类别,要么重新评估故事逻辑。
总结
本节课中我们一起学习了,讲述数据故事需要使用与分析数据不同的可视化方法。
数据故事要求你为观众提供一次精心策划的数据之旅,确保他们只看到为你的建议做出决策所需的部分。数据故事还要求观众以有助于清晰评估选项的顺序看到数据的重要部分。

引导观众完成这次旅程的最佳方法,是在数据图表中利用显著性和对比,向他们展示应该关注什么。请确保数据图表的视觉显著性与数据故事中的重要内容保持一致。
127:通过幻灯片格式化传达数据故事 📊



在本节课中,我们将学习如何有效地格式化数据图表并将其置于幻灯片上,以清晰、有力地传达数据故事。核心在于优化视觉呈现,让观众能毫不费力地理解你的核心信息。
最大化数据墨水比 📈
上一节我们讨论了数据图表的选择,本节中我们来看看如何优化图表本身的呈现。第一个核心概念是最大化数据墨水比。
这个术语由统计学家兼政治科学家爱德华·塔夫特提出,他是数据可视化领域的知名先驱。最大化数据墨水比,其基本含义是:移除图表和幻灯片上所有没有明确、独特用途的元素。
- 数据墨水:指图表中代表实际数据的墨迹(“图表”在此指你的数据可视化内容,如我们课程中视为等同的图表或图形),以及幻灯片上用于支持和增强数据可视化的其他内容。可以理解为,图像中任何被移除就会导致信息丢失的墨迹。
- 非数据墨水:指不代表数据本身,而是用于刻度、标签和边框的墨迹。基本上是图表上的其他所有东西。
因此,使数据墨水比尽可能高,意味着让页面上尽可能多的墨迹代表数据,而非其他内容。
让我们通过一个商业演示中可能看到的幻灯片例子,来看看如何做到这一点。
以下是提升数据墨水比的一些具体做法:
- 移除网格线和多余的刻度标记:在图表中,去掉不必要的网格线和次要刻度线。
- 简化背景设计:移除背景中任何不传达特定信息的华丽设计。
- 精简文本:如果公司允许,建议移除所有多余的文本,包括徽标、幻灯片页码以及那些用于指示演示进度的符号。
- 我知道这对一些在商界工作已久的人来说可能听起来像大不敬。但请记住课程开始时提到的主题:当前惯例不等于最佳实践。这就是一个完美的例子。
- 在传统的商业环境中,许多人认为让观众确切知道演示进度很重要。然而,我认为如果观众专注于这个,他们就不会如你所愿地专注于你试图呈现的数据或论点。
- 话虽如此,期望很重要。如果公司里每个人都期望你有幻灯片页码等,那就加上。只是要知道,代价可能是你可能会在影响观众决策过程的力量上做出一些让步。
- 记录一下,我认为在这个领域,值得尝试去影响公司的文化,让人们更乐于接受清晰、简洁的幻灯片所带来的改进沟通。
- 善用空白:在努力最大化数据墨水比时,不要害怕留白或空白区域。它能让你的数据图表更加突出,并确保观众的注意力集中在你希望他们关注的地方。
- 观众要看的东西越多,他们的视线就越容易游移。这个概念非常重要,以至于视觉设计界将积极保护图形中的空白区域作为一种实践。我曾听一位设计师说:“没有空间,你就没有设计。你只有视觉噪音。”
- 所以请放心,当你试图传达具体信息时,空间是好事。😊 人们抱怨空间太多的可能性,远低于抱怨空间太少。
实现一目了然的理解 👀

制作幻灯片时要关注的第二个概念,我称之为实现一目了然的理解。
你的目标应该是让观众以最少的眼球移动和最少的阅读量来理解你幻灯片的要点。让他们轻松理解你想要传达的内容。不要让他们做心算或花费大量精力去理解你的数据。

在这方面,最重要的问题之一是:始终、始终、始终为图表中不明显的坐标轴添加标签。这一点非常重要。如果你忘记标注坐标轴,没人会知道你的图表是关于什么的。
以下是实现“一目了然”的具体建议:
- 使用完整词语和单位:除非缩写极为常见(如用“K”代表“千”,或用“SEC”代表“秒”),否则使用完整词语,并包含单位。
- 在我们的例子中,“本月销售箱数”是必须包含的标签,但“店铺位置”这个标签可能是可选的,取决于你在其他幻灯片中展示的内容,城市名称可能足以传达你关心的信息,而“店铺位置”的标签可能是多余的。
- 直接在图表上标注:尽可能在图表上直接标注,而不是使用图例。这样需要更少的眼球移动和工作量来理解,因为你不需要在数据和图例之间来回对照。
- 额外的好处是,去掉图例会提高你可视化的数据墨水比。
- 标签与背景色融合:在包含这些标签时,类似于我之前关于饼图各块周围线条的建议,尝试使用幻灯片的背景色作为标签的颜色。注意,我在这里对标签和方框周围的线条都使用了背景色。这同样提高了图表的数据墨水比,并减少了可能将注意力从数据本身吸引走的额外颜色对比。
- 优先使用水平标签:水平标签比垂直标签更容易阅读。因此,尽可能为坐标轴以及数据标签使用水平方向。这可能意味着你必须翻转条形图的方向,使条形和标签平放。记住,在 Tableau 中有一个按钮可以为你做到这一点。
确保文本可读性 🔤
关于使幻灯片易于阅读的最后一组注意事项,与必须保留在屏幕上的文本应使用何种字体有关。

以下是关于字体选择的建议:
- 衬线字体 vs. 无衬线字体:
- 衬线字体:指那些在字母边缘有小卷曲装饰的字体。最著名的是 Times New Roman,其他还有 Garamond 等。这些卷曲装饰使字体在近距离阅读时更容易,因为它们有助于引导视线沿着文本行移动,因此我推荐在任何书面材料或讲义中使用衬线字体。
- 无衬线字体:指那些字母边缘没有那些小细节的字体。一些常见的无衬线字体有 Helvetica、Calibri 和 Arial。由于屏幕分辨率在演示中常常是个问题,尤其是当人们坐得离屏幕较远时,通常的做法是在演示文稿或任何你想发布在网上的内容中使用无衬线字体。
- 确保字体足够大:无论使用什么字体,都要确保文本能从房间后排看清。
- 我发现这是 Tableau 自动化做得不太好的方面之一,可能是因为其默认设置更多是针对仪表盘而非演示文稿。
- 如果文本不可读,它就毫无用处,所以放大字体。许多人建议使用的最小尺寸是 30 磅。一个更幽默的版本来自硅谷营销高管、知名创业书籍作者盖伊·川崎,他说:“一个好的经验法则是,将最年长投资者的年龄除以 2,然后使用那个字体大小。”
- 在图表中,你可能不得不使用稍小的字体,但我会建议尽可能减少标签数量,而不是缩小字体。
- 完成演示文稿后,将幻灯片置于“幻灯片浏览”模式并将其大小缩小到 66%。如果你在这个尺寸下无法清晰阅读,那么你的字体可能对后排观众来说太小了。作为一个通用经验法则,如果你担心字体太小,那它肯定太小了。
- 顺便说一下,如果使用 30 磅字体意味着你的文本无法再放在一页上,那么一开始可能就不该在一张幻灯片上放那么多文本。
- 遵循这个建议通常意味着你最终会去掉项目符号点。相反,每个项目符号点(如果你确实需要它的话)最终会出现在它自己的幻灯片上,并配有它自己的可视化,这无论如何都是我的建议。

避免视觉心算与统一比例 📏
让我们再谈谈如何确保你的观众不需要做“视觉心算”。
正如我们在之前的视频中讨论过的,这意味着不要使用让观众从由大小、角度或颜色编码的项目中推断具体数字或进行精确比较的图表。
另一个重要点,与图表类型本身无关,是确保所有坐标轴具有相似的比例。
- 统一坐标轴尺度:尝试在整个演示文稿中对坐标轴使用相同的限制范围。
- 处理双Y轴图表:如果你被要求制作一个带有两个Y轴的图表(如此处所示),而这两个测量值具有完全不同的单位类型,无法轻易放在同一尺度上,那么要么将两个变量转换为一个共同的尺度(如百分比),以便它们可以简单地绘制在单个图表上;要么将测量值分成两个易于比较的独立图表。
巧用辅助线与有效标题 🎯

你可能以前没遇到过的是:虽然你应该尽可能从图表中移除线条(尤其是黑线),但有时使用白色网格线可以使条形图上的条形高度或折线图上的点值更容易看清。
我在这里展示了一些例子。这为你的观众提供了视觉参考点,使得确定单个数据点的值变得容易,尤其是当数值非常大时。
这是格式化幻灯片时要考虑的最后一件事:如果你打算使用幻灯片标题(我认为这是可选的),让每个标题都给出该幻灯片的“核心要点”。

- 标题应传达核心信息:幻灯片标题不应存在,除非它们能增加额外信息。用“支持论点”或“讨论”这类词语作为幻灯片标题,会与你希望观众关注的内容(即你的论点)产生竞争。
- 避免无关信息:这类标题确实提供了一些信息,但它是关于一个与你正在讲述的故事不同的故事的信息。它是关于“我还要在这个房间里待多久”这个故事的信息,而不是“这就是为什么你应该遵循我的建议”的故事。
- 最佳实践:所以,如果你要使用幻灯片标题(这在可视化社区是一个有争议的点),请使用能非常简洁地陈述幻灯片核心要点的标题。
总结 📝

本节课中,我们一起学习了如何通过优化幻灯片格式来有效传达数据故事。核心要点包括:

- 最大化数据墨水比:移除所有非必要元素,让数据本身成为焦点,并善用空白。
- 实现一目了然:清晰标注、直接标记、使用水平文本,降低观众的理解成本。
- 确保文本可读性:根据场合选择合适的字体(演示用无衬线,印刷用衬线),并务必使用足够大的字号。
- 简化认知负担:避免让观众做视觉心算,统一图表坐标轴比例,谨慎处理多轴图表。
- 善用视觉辅助:在需要时使用浅色网格线作为参考。
- 标题即要点:如果使用标题,应使其直接概括幻灯片的最终结论。
让我们最后看一下我们开始时使用的商业幻灯片,以及我们应用这些原则后得到的幻灯片。你认为哪一个更有效地传达了这些数据的核心信息?


通过应用这些原则,你可以将杂乱、难以理解的幻灯片,转变为清晰、有力、能引导观众直达结论的有效沟通工具。
128:通过演示文稿格式化传达数据故事 📊

在本节课中,我们将学习如何格式化整个演示文稿,为其中的图表和幻灯片提供统一的背景与衔接。我们将探讨视觉格式化、过渡、动画以及一些通用的最佳实践。


之前我们讨论了如何格式化单个图表和幻灯片。本节中,我们来看看如何格式化整个演示文稿,它为那些图表和幻灯片提供了背景和粘合剂。我们将讨论视觉格式化、过渡、动画和一些通用的最佳实践。
视觉格式化 🎨
让我们从视觉格式化开始。
与我们的故事叙述主题一致,我们希望演示文稿感觉像一个连贯的故事。为了感觉连贯,它看起来也需要是连贯的。
这意味着你应该力求在整个演示文稿中使用一致的格式,包括从幻灯片背景到字体再到整体配色方案的所有内容。除非你为了戏剧性效果而特意使用不同的演示风格。
确实,有时过于一致会有点无聊。如果你想活跃你的演示文稿,可以尝试一些方法,例如为演示文稿的主要观点使用一种背景或字体,为过渡幻灯片或总结幻灯片使用另一种背景颜色或字体。只需确保你是有节制、有目的地使用不同的格式,而不是因为尝试不同的 PowerPoint 选项很有趣。

同时,请记住,一些商业文化并不接受新类型的演示文稿,并且不会看好戏剧性的过渡或标题幻灯片。因此,一如既往地,要注意你所在的文化环境,并确保在你理想的演示愿景与利益相关者的期望之间取得平衡。

过渡幻灯片 🔄
现在,让我们转向过渡幻灯片这个话题。有一个所谓的“10分钟规则”,不幸的是,我们 Coursera 讲师经常打破这个规则。
该规则指出,人们通常只能在大约10分钟内保持对学习体验的集中投入。之后,他们就会开始走神。如果这个规则成立,那么在你的演示文稿中构建我称之为“软休息”的环节是个好主意。
在这些软休息期间,你要么总结刚刚讲过的内容,为观众提供视觉上吸引人的东西,要么转换话题,让观众准备好进入不同的方向。
过渡幻灯片对于这些软休息很有用。关键是要确保过渡是平滑的,而不是破坏性的。对于正式的演示,不要使用那些花哨的幻灯片切换动画。它们可能有趣一秒钟,但之后就会显得业余或分散注意力。只需使用默认的幻灯片切换效果。
至于用什么幻灯片作为过渡幻灯片,你有很多选择。如果你在进行更正式的演示,可以使用你的议程幻灯片作为过渡幻灯片。如果你有更多的灵活性,可以使用你故事介绍中的一张图片,或者对该图片进行轻微修改,以对应你即将进行的过渡。
由于通常建议尽量使过渡幻灯片在视觉上引人注目,以帮助唤醒观众,你可以尝试将“三分法则”应用于你的过渡幻灯片。
三分法则指出,如果你将一张幻灯片垂直和水平各分成三个相等的部分,人们会持续地看向这些线条的交点,而不是屏幕的中心。
随之而来的设计原则是,为了使你的图像或可视化尽可能引人注目,你应该尝试将对象沿着线条本身放置,或者将所有视觉对象放在其中一个三分之一的分区内。因此,如果你可以选择在希望视觉上令人兴奋的过渡幻灯片上放置图片或重要文本的位置,你可能想尝试使用三分法则来设计你的幻灯片,而不是将对象放回屏幕中央。
以下是一个不遵守三分法则的图片示例,以及一个经过调整以遵守三分法则的相同图片示例。这里还有一个如何设计一个遵守三分法则的过渡幻灯片的示例。
我不建议你将三分法则应用于你的数据幻灯片。那些幻灯片应该将数据内容放在最前面和中心位置,屏幕上不应有任何其他会分散观众注意力的东西。但由于过渡幻灯片旨在给观众一点视觉和精神上的休息,它们可以被设计成具有更整体的吸引力,三分法则对此会有所帮助。

动画效果 ✨

我们一直在讨论过渡幻灯片。我真希望现在能有一个好的过渡幻灯片,因为我即将转换到讨论动画的话题。
演示软件包如今提供了各种有趣的花哨功能,允许你以多种创造性的方式控制幻灯片上元素的出现、消失和移动。这些动画在适当的情况下可能很强大,我确实建议你使用其中的一些。
特别是,按照你谈论的顺序让项目出现,可以成为控制观众注意力的一种非常有效的方式,并有助于你在演示中保持动感和势头。
此外,通过控制其出现方式来引起对项目的注意,看起来比仅仅添加一个箭头或像这样的标注框要精致得多。
只需确保当你使用动画时,你心中有一个明确的目的,并且不要使用任何过于花哨或分散注意力的效果。淡入和淡出动画通常非常好。在适当的情况下,允许文字移动的运动路径也不错。
效果不佳的是棋盘格或旋转效果。并且,无论你做什么,请不要使用 Keynote 软件中那个让东西看起来像着火了一样的功能。
额外提示与总结 ✅
我将以一些关于演示文稿格式化的额外技巧来结束本视频,希望你会发现它们有用。
没有什么比演示文稿中的拼写错误更能损害你的可信度了。在向观众展示之前,至少进行三次拼写检查和视觉检查,以查找拼写错误。

当你想强调一个词时,加粗通常比下划线或使用斜体更有效且更易读。
始终确保你的图片和图形是高分辨率的。任何内容都不应该模糊或失真。
为基本的演示文稿使用相同的2到3种颜色。其他颜色只应在特意用于突出显示某张特定幻灯片上的内容时使用。
至此,你几乎准备好进行演示了,只剩下几个视频了。

在本节课中,我们一起学习了如何通过统一的视觉格式化、有效的过渡幻灯片、有目的的动画应用以及遵循一些关键的最佳实践,来构建一个连贯、专业且引人入胜的数据故事演示文稿。记住,格式化的目标是服务于故事的清晰传达,而非炫技。
129:呈现您的数据故事 📊

在本节课中,我们将学习如何有效地呈现您的数据分析成果,并成功地向听众讲述您的数据故事。我们将涵盖演讲内容、表达方式、演讲前后的准备与行动,以及如何管理演讲时的情绪。
经过数月甚至数年的辛勤工作,这一天终于到来。您终于有机会向人们展示您的发现。关键在于,您现在必须站在众人面前,说服他们采纳您的建议。这确实令人紧张,但也令人兴奋,因为我知道您会表现出色。

在本节中,我们将介绍一些要点,让您同样自信地相信自己会表现出色。我们将聚焦于您要说的内容、表达方式、演讲过程中的行为,以及演讲前后的准备工作。最后,我们将讨论演讲时的感受。
演讲内容:说什么 🗣️
与听众互动是吸引他们的最佳方式。如果您要向公司高层做汇报,可能无法避免互动,因为他们可能在您演讲开始两分钟后就提出问题。但如果他们不主动提问,您需要计划在演讲中设置至少两到三个邀请听众参与的环节。
以下是几种互动方式的例子:
- 您可以请听众猜测一个与您演讲相关的数字,例如:“您认为我们每月销售多少本书?”
- 您可以请听众在认同某个观点时举手,例如:“有多少人认为我们是威斯康星州前五的电脑零件生产商?”
请务必准备好能促使听众参与的内容。

另一种您会经常用到的内容是过渡语句。当演讲的流程被打断时,听众会失去注意力,开始神游天外。如何抓住听众的注意力?答案是使用口头过渡。
口头过渡是您用来连接前后幻灯片内容的语句。它们本质上充当了您故事中的粘合剂。我已附上一个提供优秀口头过渡建议的网站链接,请将其加入书签,并在准备演讲时疯狂练习您的幻灯片口头过渡。
在演讲中,您不应该说任何听起来像行话的内容。即将做出百万美元决策的人,如果听不懂您在说什么,是不会耐心的。因此,不要假设听众具备任何特定的先验知识,只使用普通听众都能理解的语言。
我们已经讨论了要说的内容。现在,让我们谈谈如何表达。
表达方式:怎么说 🎤

您的声音是一个工具,它可以让听众全神贯注,但如果使用不当,也可能让他们昏昏欲睡。显然,您希望是前者。为此,请有意识地通过声音传达您对所完成工作的热情和活力。
同时,确保变换您的声音。有时,您可能需要放慢语速以强调重点。其他时候,您可能需要加快语速,以表达对即将提出的极具影响力的建议的兴奋之情。
此外,确保变换您的音调。有时使用较高的音调,这通常更显亲和;其他时候使用较低的音调,这能提醒听众您正在讲述需要他们高度关注的重要内容。
既然您知道了说什么和怎么说,接下来让我们谈谈演讲前要做什么。
演讲前:准备与练习 📝
我敢打赌您知道我要说什么:练习、练习、再练习,然后继续练习。
一种特别有效的练习技巧是:反复练习演讲中的一小部分,直到完全熟练,然后转向练习另一小部分,如此反复,直到覆盖整个演讲。这种聚焦式练习法的好处在于,它将任务分解为易于管理的小块,您不会因为需要一次性记住所有内容而感到不知所措。
既然我们知道您会采纳我的建议并在演讲前进行练习,接下来让我们谈谈如何在演讲中运用这些练习成果。
演讲中:肢体语言与姿态 🧍
您要做的一件事是确保有意识地注意自己的体态。我已随本视频附上一个很好的资源,其中详细介绍了可能影响听众反应的体态重要方面。因此,我将让您在那里阅读有关体态的细节。我在此总结一下:尽量保持身体开放,双臂不要交叉在身前,直接面向听众,当然,还要微笑。
正如您可能听说过的那样,确保与房间里的不同人进行眼神交流,不要忽略任何人,也不要低头或照读幻灯片。尽您所能,让动作显得自然,不要感觉太拘束,除非您有突然开始随机舞蹈动作的倾向,因为这可能会很尴尬。我不知道谁会这样做,尤其是在Coursera上公开的视频里,您知道吗?
好的,假设您完成了一场精彩的演讲。您就结束了吗?还没有。
演讲后:寻求反馈 🔄

演讲结束后您该做什么?答案是向您的同事和同行寻求反馈。因为做演讲很难,客观衡量自己的表现则更难。最终,演讲的成功取决于听众的反应。因此,改进的唯一途径就是听取听众的想法。

我们将在本课程的最终评估中练习给予反馈和接受反馈这两项关键技能。
最后,让我们谈谈您会有什么感受。


情绪管理:如何感受 😌
对我们大多数人来说,答案会是:非常、非常紧张。公开演讲对许多人来说都令人神经紧张,以至于心理学家在实验中用它来主动给人施加压力。据报道,温斯顿·丘吉尔和沃伦·巴菲特都曾患有严重的演讲焦虑,但他们都是证明演讲或表现焦虑可以被克服的绝佳例子。所以,练习、练习、再练习。自信是焦虑的最佳解药。

在本节课中,我们一起学习了如何成功呈现数据故事。我们探讨了设计互动内容、使用口头过渡、避免行话的重要性;学习了如何运用声音的变化和肢体语言来增强表达效果;强调了演讲前充分练习、演讲后积极寻求反馈的关键步骤;最后,我们也正视了演讲时的紧张情绪,并认识到充分的准备和练习是建立自信、克服焦虑的最佳途径。
130:关于本专项课程 🎯

在本节课中,我们将要学习商业数据分析领域的概况、其重要性以及本专项课程的设计目标。我们将了解数据分析在当今商业环境中的核心地位,并预览课程将如何帮助你掌握关键技能。
欢迎来到激动人心的商业数据分析领域。我在此行业工作了20年,从未感到乏味。你也不会感到乏味。随着全球大数据分析文化的真正潜力得以实现,未来20年将更加令人兴奋。
我是一名研究大脑大数据的神经科学家。我现在处理各种数据集,并将我们在大脑研究中发现的统计技术和问题解决技术应用于商业领域。这对我来说非常有趣,因为事实证明,由于大数据生态系统的存在,我们在科学领域面临的许多分析挑战,如今在商业领域也同样存在。
我们在科学领域发表论文所使用的技能,与向高管汇报时使用的技能是相同的。这一切都关乎批判性思维、数据整理和沟通。我作为发明家和企业家,创造了新的数据分析技术。我也曾作为风险投资家,帮助他人实现他们在商业分析领域的梦想。在过去的六年里,我一直在杜克大学全球知名的工程管理硕士项目中担任教师。
我们的重点在于实践,即如何帮助你利用数据创造积极的变化。商业世界中的“大数据”只是一个简称,它指的是我们过去所有需要记录的东西,例如产品发票、医生处方,现在都电子化并存储在计算机中。这意味着它们可以被搜索、探索、分析和利用。电子数据的存储成本已变得非常低廉,以至于丢弃数据并不能节省任何成本。
这些数据中的大部分可能不会被证明有用,但聪明的人们将在未来20年里找到新的方法来利用其中的一部分,以创造具有经济价值的产品和服务,或者为他们已经销售的产品和服务提取暂时的或持久的信息优势,即一个有意义的竞争优势。
任何处于竞争市场中的商业营利性公司,如果不将商业数据分析的最佳实践融入其运营中,都无法在未来五年内保持盈利甚至生存下去。
要高效利用所有这些大数据,需要理解数据问题的完整生命周期。这个生命周期包括收集数据、清理数据、分析数据,以及向人们传达其含义。世界不仅需要能够驾驭整个周期的人,还需要能够整合并翻译所有参与人员语言的人,这些人包括从程序员到统计学家,再到沟通专家和商业领域专家。
信不信由你,这类人被大众媒体称为“独角兽”。这是因为很难想象一个人能掌握所有这些技能。然而,我们要告诉你,所有这些技能都可以被一个人掌握。本专项课程旨在帮助你迈出第一步,成为你自己的大数据“独角兽”。
当你完成最终的顶点项目时,你将掌握基本的商业概念和问题解决技能,以帮助你在大数据生态系统中游刃有余。同时,你也将掌握商业分析最重要的工具,包括在Excel中进行数据建模、使用Tableau理解和沟通数据,以及使用SQL组装数据。
你们中的一些人可能已经了解部分内容,但我们的兴趣在于弥合差距,帮助你们都成为“翻译者”。我们希望帮助没有技术背景的商业人士熟悉数据,也希望帮助有技术背景的人士学会提出最佳类型的商业问题。我们都相信,无论你的技术背景如何,大数据分析都是你能从事的最有回报的领域之一。最激动人心的发展还在未来。
感谢你与我们一同踏上这段旅程。

本节课中,我们一起学习了商业数据分析的重要性及其在当今商业环境中的核心作用。我们了解到,数据分析的生命周期包括收集、清理、分析和沟通,而掌握跨越技术、统计和商业领域的综合技能是成为行业所需“翻译者”或“独角兽”的关键。本专项课程将引导你使用Excel、Tableau和SQL等核心工具,迈出掌握这些技能的第一步。
131:欢迎学习使用MySQL管理大数据 🗄️

在本课程中,我们将学习如何利用MySQL管理大数据,这是从数据库中检索数据以进行分析并为企业提供可执行建议的核心技能。
欢迎来到“使用MySQL管理大数据”课程。这是名为“Excel to MySQL:商业分析技术”专项课程的第四门课。我是杜克大学的神经科学家Janice Sck Borg博士。我很高兴能通过本课程,向大家介绍大数据世界中最基础的技能之一:从数据库中检索数据,以便进行分析,从而为企业创造可执行的建议。
在接下来的几周里,你将通过视频讲解和基于真实商业数据集的练习来学习这套技能。每周,我将通过幻灯片和短视频介绍本周的主要主题,然后你将通过活动和练习来实践应用这些概念。这些活动范围广泛,从绘制数据库图表以帮助你理解数据库的组织方式,到通过连接到我们商业数据库的在线界面实际编写和执行你自己的代码。
每周结束时的测验将基于视频内容和实践活动。因此,请务必关注课程网站内容部分提供的所有不同类型的资源。
我想为你详细规划在未来几周内将要学习的技能。但在开始之前,我们有一个非常重要的问题需要回答。



我们将在下一个视频中寻找答案。
132:SQL与MySQL概述

在本节课中,我们将要学习SQL语言的基本概念、其发音争议、在商业分析中的重要性,以及为什么选择MySQL作为本课程的重点学习平台。我们还将了解课程的整体学习目标。
SQL的发音与重要性
上一节我们介绍了课程主题,本节中我们来看看SQL语言本身。SQL是一种数据库语言,但其名称的发音存在广泛争议。
最常见的发音是“S-Q-L”或“Sequel”。该语言的联合创始人Don Chamberlain表示,由于语言最初被命名为“Sequel”,即使在缩写为SQL后,许多人仍沿用此发音。两种发音都被广泛使用和认可。一些主流数据库系统,如Oracle,在其文档中明确说明该语言发音为“S-Q-L”。而另一些系统,如MySQL,则明确表示其名称发音为“My-S-Q-L”。因此,你可以选择自己喜欢的发音方式。
那么,为什么我们需要关注SQL呢?公司需要管理大量数据,而唯一实用的方法是将数据存储在某种数据库中。在技术驱动的公司中,从数据库检索数据的唯一方法是编写自己的SQL查询。SQL查询是用于提取数据的结构化计算机代码。在其他更传统的大型公司中,虽然可能有专人负责提取数据,但你需要提交正式请求,这可能需要数天或数周时间。因此,公司非常渴望招聘不仅会分析数据,而且懂得如何首先获取数据的分析师。
一项针对400多名技术公司招聘人员的研究表明,在招聘商业智能和业务分析师时,他们认为最重要的技能排名如下:
以下是招聘人员认为重要的技能排名:
- 沟通技巧
- SQL与查询技能
- 基础分析技能
由此可见,从数据库中提取数据的能力对于获得商业分析师职位甚至比分析技能更为重要。
关系型数据库与MySQL
SQL是用于从特定类型的数据库(称为关系型数据库)中检索数据的语言。关系型数据库是存储高度组织化和结构化业务数据的黄金标准。全球几乎每家公司都至少拥有一个关系型数据库。
当前数据库市场的年销售额超过400亿美元,预计未来几年将超过500亿美元,其中绝大部分资金都用于关系型数据库技术。因此,本专项课程选择重点讲解如何使用关系型数据库管理大型企业数据。
本课程标题的第二部分提到了MySQL,它是一个特定的关系型数据库品牌或平台。市场上存在许多关系型数据库平台,包括Oracle、Microsoft SQL Server、DB2、Microsoft Access和PostgreSQL等。我们选择聚焦于MySQL。
以Box公司为例,这是一家为企业提供在线文件共享和协作服务的公司。Box的整个界面都基于关系型数据库概念构建。每次你在Box账户的文件夹中存储新文档,就像在表中添加新行。每次为文档添加新的协作者,就像在表之间添加新的关系。因此,Box本质上是一个访问所有底层数据库操作的友好界面。Box使用MySQL作为其主要数据库,原因如下:
以下是Box选择MySQL的主要原因:
- 可靠且成熟
- 开源且社区生态完善
- 拥有大量工具和行业会议支持
- 能够满足其存储数百万用户和数十亿条内容数据的关系型需求


但Box并非唯一使用MySQL的知名公司。以下是一些重度依赖MySQL数据库的其他公司:

以下公司也广泛使用MySQL:
- YouTube (Google旗下)
- Yelp
- Dropbox
- GitHub
- Etsy
- Booking.com
- Yahoo


鉴于MySQL是开源的、可免费使用、易于理解并被许多你可能心仪的公司所使用,我们认为它是一个能为你提供重要实践经验的数据平台。
课程目标与学习内容
每个数据库系统使用的SQL语言版本略有不同,但它们的相似度很高。编写SQL查询就像开车,不同车型的按钮位置可能不同,但只要你学会开一辆车,你就掌握了驾驶所有同类车型的基本方法。关系型数据库也是如此,一旦你学会使用SQL与一种数据库交互,你就掌握了与所有关系型数据库交互的基本方法。
为了让你感受不同SQL语言的差异,本课程除了提供MySQL数据库访问,还提供了另一种关系型数据库:Teradata。Teradata是数据仓库领域的领导者。数据仓库是历史数据和当前公司数据的副本,其结构专门为查询和分析报告而设计。使用数据仓库的知名公司包括沃尔玛、山姆会员店、Verizon、美国银行和苹果等。
通过本课程的学习,你将能够掌握以下技能:
在本课程结束时,你将能够:
- 描述关系型数据库的结构。
- 解释和创建描述特定数据库内容的实体关系图与关系模式。
- 编写查询以检索和排序符合特定条件的数据,并能从包含超过100万行数据的MySQL和Teradata数据库中检索此类数据。
- 执行限制查询对同事影响的实践操作。
- 使用聚合函数汇总数据行,并根据指定变量进行分段聚合。
- 跨数据库组合和操作来自多个表的数据。
- 重新记录数据并执行依赖于动态数据特征的计算。
- 将数据分析问题转化为SQL查询。
不久之后,你将拥有一套备受追捧的技能,这对数据分析招聘者极具吸引力。你也将拥有一套强大的工具,帮助你为企业提供真实、有形的价值。

本节课中我们一起学习了SQL在商业分析中的核心地位、关系型数据库与MySQL平台的优势,以及本课程将帮助你达成的具体学习目标。掌握这些技能将为你打开数据分析领域的大门。
133:海量数据与多用户并发访问带来的挑战

在本节课中,我们将要探讨为什么随着业务增长,使用电子表格管理数据会变得低效且不可靠,并理解数据库系统旨在解决的核心问题。
为什么需要数据库?
为什么企业不能保持简单,将所有数据存储在电子表格中?这似乎会让每个人的工作都变得更轻松。让我们来审视这个前提:将公司数据保存在电子表格中是否真的能让所有人更轻松。
想象一下,你正在为丹尼尔·埃加工作,他创办了“埃加烘焙咖啡”,这是你在本专项课程第一门课《数据驱动公司的商业指标》中描述的业务。在营业的第一周,丹尼尔亲自处理订单,而你则尽职地将所有重要信息记录在一个电子表格中,一切看起来都很好。
现在,时间快进几年。埃加烘焙咖啡取得了非凡的成功,丹尼尔已成为北卡罗来纳州的咖啡之王。每天都有海量订单涌入,现在有许多人需要在你第一周制作的电子表格中输入这些订单,并且当客户致电询问时,许多人需要跟踪和修改订单。
实际上,我刚才的描述过于平静了。真相是,我刚才的描述对埃加烘焙咖啡订单部门可能发生的情况给出了误导性的乐观看法。
电子表格带来的具体挑战
以下是埃加烘焙咖啡在使用电子表格管理数据时遇到的一系列具体问题。
1. 数据规模与性能问题
真正的情况是,多人试图在电子表格中输入订单,但这并不总能实现,因为现在埃加烘焙咖啡的订单已超过100万份。因此,公司初创时制作的单一电子表格已被拆分成六个独立的电子表格,以防止每次尝试输入订单时Excel崩溃。
将电子表格拆分为6个有助于防止Excel崩溃。但现在,每当客户致电询问订单或发票问题时,员工都需要花费几分钟才能找到包含该订单的正确电子表格,尤其是因为每个电子表格仍然非常庞大,Excel需要一段时间才能打开每个文件。
2. 并发访问与协作冲突
更令人烦恼的是,多人试图同时使用电子表格。因此,当客户致电询问时,你必须等待其他人完成对某个电子表格的操作,然后才能自己打开它。结果,大家开始想出各种复杂的办法,让电子表格在自己的电脑上保持打开状态,以确保当客户来电时,自己是加载了该文件的人。
幸运的是,埃加烘焙咖啡的每个人都意识到,在员工需要时将其从订单电子表格中踢出是一种糟糕的商业实践。因此,公司同意将电子表格转移到一项在线服务上,允许多人同时编辑同一个电子表格。
3. 数据不一致与错误
但是,新的问题出现了。首先,电子表格仍然相当大,因此打开和搜索仍然需要时间。其次,有时多人最终会同时与一个电子表格交互,导致他们互相覆盖对方的输入。第三,数据开始出现大量不一致之处,如果你不同时打开多个电子表格,这些不一致很难被发现,而且只有少数人的电脑性能足够强大,能够同时打开多个如此大小的电子表格。
以下是主电子表格中的一些摘录,作为这些不一致的例子:
- 客户 Archways 的联系人是 Trudy 还是 Mark?
- 如果是 Trudy,电子表格中的哪个电子邮件地址是她的真实邮箱?Trudy 的第二个电子邮件地址不同,是因为有人错误地输入了第二个,还是因为 Trudy 实际上更改了她的电子邮件?
- 你可能会担心 Trudy 的第二个电子邮件是错误的原因之一是,最近发生了很多错误。每次回头客下订单时,埃加咖啡的员工都必须再次输入该回头客的所有信息,尽管这些信息已经在电子表格中输入了多次。由于员工尽力让客户满意,他们最终会非常快速地输入信息,而副作用就是更容易出错。
4. 数据更新与维护困难
其他变得烦人的问题是,当电子表格中某个地方出现错误时,通常意味着员工必须更改电子表格中的多个字段来纠正错误。因此,当发现 Lina 实际上不是完成这笔销售的埃加烘焙咖啡员工时,有人必须更新包含 Lina 姓名的这一列,但那个人还必须更新包含 Lina 联系信息和销售编号的这些列。如果这是自动的,本可以节省大量时间。
这些列中曾经有公式可以实现自动更新。但现在有太多不同的电子表格和电子表格中的错误,以至于公式经常输出错误的结果。因此,没有人信任它们。
5. 数据删除与保留的矛盾
问题还不止于此。有时,保留行中的某些信息但删除其他信息会很有用。例如,Lulus 决定取消订单,因此你删除订单信息以确保汇总销售额的公式正确。但你仍然希望将 Lulu 的联系信息保留在公司记录中,以便将来尝试说服他们重新下订单。问题是,如果你有一行包含大量空数据,查看电子表格以核对审计记录的员工可能会认为该行是一个重大错误,要么感到担忧,要么将其完全删除。

6. 系统变更与数据整合挑战
说到审计,公司最终在某个时候更换了发票系统,一些订单是在旧发票系统上生成的,而另一些则是在新系统上生成的。负责核对公司记录的员工需要区分两个系统上生成的销售,但这很难做到,因为分析使用了另一个单独的分析电子表格,并且当新订单不断添加时,很难保持该分析电子表格的更新。
7. 扩展性与未来需求
此外,埃加烘焙咖啡希望开始收集更多关于客户的信息以改进营销工作。然而,为实现这些营销分析而需要在每个电子表格中添加的列数将使电子表格的大小增加两倍以上。这会使电子表格比现在更慢。
数据库解决方案的必要性
正如你所看到的,一开始将埃加烘焙咖啡的记录输入电子表格很容易且很有意义,但随着公司的发展,电子表格变得越来越低效和不准确。在这一点上,将公司数据保存在电子表格中确实会阻碍公司发展。如果埃加烘焙咖啡未来达到每年数百万销售额的程度,电子表格系统将成为公司维持客户服务、跟踪财务状况和做出商业决策的巨大瓶颈。
为了使埃加烘焙咖啡保持竞争力,他们需要一个数据存储解决方案,使他们的信息易于检索、易于更新,并且可以同时被多人访问和修改。此外,特别是因为将有如此多的人访问数据,需要有一种方法来确保所有存储记录中的数据保持一致,并且数据不会被无意中删除或丢失。
存储方法还需要空间高效,这样数据就不会被重复并占用额外空间。当然,存储也需要快速。数据需要能够快速输入、搜索和检索。
最后,我们尚未讨论的另一件事是,当你存储财务信息时,公司数据也需要非常安全。仅给电子表格添加密码不足以保护这些信息的安全。

总结
本节课中我们一起学习了,当大量人员使用大量数据时出现的这一长串问题,正是数据库旨在解决的问题。下一节视频将探讨关系型数据库如何具体实现这一目标。
134:关系型数据库如何解决这些问题 📊

在本节课中,我们将学习关系型数据库如何通过其独特的设计来解决大型电子表格所面临的数据存储、检索和效率问题。我们将探讨其核心概念、设计原则以及背后的数学理论。
上一节我们讨论了大型电子表格在处理海量数据时的局限性。本节中,我们来看看关系型数据库如何通过不同的数据组织方式来高效地解决这些问题。
如何设计一个非单一电子表格的数据存储系统?如果需要快速读写大量数据,读写过程必须尽可能高效,同时数据占用的空间也应尽可能小。在本课程中,我们专注于一类特定的数据库——如 MySQL、Teradata 等关系型数据库——如何实现快速写入和检索大量数据的目标。


关系型数据库背后的核心理念是将数据集分解为独立的片段或数据子集。每个数据子集都有一个主题,该主题在逻辑上将子集中的数据记录绑定在一起。当请求检索信息时,数据库只与提供所需信息相关的数据子集交互,而不是同时与整个数据集交互。这种通用策略确保了数据存储所需的空间尽可能小。我们稍后会看到,它也提供了快速检索所需信息的机制。
让我进一步解释一下“关系型数据库将数据集分解为独立片段或数据子集”的含义。实际上,每个数据子集都保存在其自己的表中。因此,关系型数据库基本上是将数据集组织成更小的表,每个表都有自己统一的主题。如果思考一下将公司所有数据保存在多个电子表格中的情况,就会明白,如果不事先考虑如何组合和关联这些电子表格,将它们链接在一起将是一个非常耗时的问题。关系型数据库中也存在类似的概念。数据库设计的一个关键部分是确保每个具有统一主题的独立表都包含一个具有唯一值的列,该列允许你将此表链接到其他表。
让我们通过初步设计一个将 Eggers Rose 咖啡电子表格放入关系型数据库的策略,来感受一下这可能是什么样子。我们的大型电子表格中似乎有一系列主题:公司联系信息、忠诚度计划信息、配送中心信息、Eggars Roast Coffee 员工信息,当然还有订单信息。因此,为了将我们的大型电子表格放入关系型数据库,我们可以将其分解为独立的表,每个表对应其中一个主题。
以下是可能的表结构设计:
- 一个表仅包含公司联系信息。
- 一个表包含忠诚度计划信息。
- 一个表包含配送中心信息。
- 一个表包含接收订单的 Eggars Roast Coffee 员工信息。
- 一个表包含订单信息。
为了节省空间,我们会省略所有计算字段,因为可以在需要时随时计算它们。如果以这种方式设置数据,你可以看到每个较小的表都必须有一个列,以某种方式将其链接到订单表。这些链接列在此处以红色标出。
让我们考虑一下将电子表格分解为主题表的一些好处。在这种新的组织方式下,如果需要更改员工信息,我们只需在员工表中更改一次,而不必每次想要更改时都在超过一百万行的整个列中搜索并替换值。我们还可以向数据库添加配送中心,而无需在主表中添加大部分为空白的新行,并且可以轻松地向这些配送中心添加新信息(如地址),而无需占用太多磁盘存储空间。此外,即使商店从未完成销售流程,我们也能清楚地知道如何保留商店联系人的信息。更重要的是,我们节省了大量空间,因为不必在订单表的每一行中重复公司联系、忠诚度计划、配送中心和员工表中的所有信息。
正如你所见,以这种方式组织数据集解决了许多我们在上一个视频中讨论的问题。此外,将数据集组织成更小的主题表还以另一种方式使关系型数据库非常强大,但这种结果可能也不太直观。以下是总结。
计算机尚未依靠魔法运行,尽管不可否认,它们常常看起来像是如此。为了让计算机程序执行诸如为你链接表格之类的操作,你必须有一种方法来告诉计算机它应该如何做。你必须能够编写适当的规则和操作,以产生你想要的结果。事实证明,将数据视为可以交互的相关项目组,使程序员能够利用一种称为集合论的数学理论和一种称为关系代数的代数,来编写一种优雅且完整的检索信息编程语言。
由于集合论的主题将在课程中再次出现,我想花点时间让你直观地了解集合论如何构成关系型数据库的基础,即使我们不涉及任何数学细节。数学集合论将集合定义为具有共同点或遵循共同规则的唯一对象的集合。集合可以是任何事物的集合,只要集合中的事物具有共同特征。如果我们将每个数据库表视为列和行的集合,那么将表视为两个相交的集合或集似乎是合理的。关系代数告诉你如何操作集合,换句话说,就是执行诸如从一个集合中减去另一个、将它们相加以及找到它们重叠部分等操作。因此,如果每个表都是列和行的集合,我们可以使用关系代数编写计算机程序,告诉计算机如何为我们选择数据子集,以及如何跨表组合数据集。我们向数据库发出的命令中的词语将反映这种关系代数。
现在,真正酷的部分来了。集合论是逻辑的一种形式。据说集合论由 1874 年的一篇论文创立,因此它已经被研究了很长时间,目前已被充分理解。因此,我们知道如何编写算法,以数学上最优的方式来操作子集。通过将我们的数据库建立在集合论之上,我们可以利用这些算法。这意味着,基于集合论的关系型数据库,只要设置正确,就能以数学上最优的方式,非常、非常快速地提取我们请求的数据子集,即使这些数据集驻留在多个表中。这就是为什么在操作和重组存储的表格数据时,关系型数据库仍然是速度最快的数据库之一。如果在职业生涯的某个阶段,你开始对优化所使用数据库输出信息的速度感兴趣,你将开始直接使用这些算法。有一个命令可以要求数据库告诉你它将如何执行一个假设查询,你可以利用这些信息编写一个可以运行更快的命令替代版本。
即使在你最终与公司数据库交互的方式中不太关注集合论算法,数据库也会被配置为尽可能遵守集合论的许多要求,以便能够利用这些算法。了解这些要求对你将是有用的。
以下是关系型数据库设计的一些核心要求:
- 首先,单个表应代表数据集的最小逻辑部分。
- 其次,表中的每一列必须代表一个唯一的信息类别。
- 第三,表中的每一行也必须代表信息的一个唯一实例。
- 另一个重要要求是,表中列或行的顺序不能影响操作。这将允许数据库以它确定的最快顺序和方式提取它们。
除了输出我们关心的信息子集的主要方法外,关系型数据库还有一些额外的优势。首先,关系型数据库系统内置了一些有助于维护数据完整性的功能。例如,当你设置关系型数据库时,你可以精确定义每列应放入的数据类型,数据库可以防止你将其他类型的数据放入其中。这意味着当你本应输入一个单词时,你不会意外地写入一个数字。你还可以定义列是否允许空值。此外,关系型数据库允许你指定谁有权访问数据库的某些部分以及具体的访问方式。
总的来说,这意味着只要我们能够弄清楚如何将我们关心的数据放入表的集合中,关系型数据库就提供了一种非常强大的方式,以极其安全和可靠的方式存储和检索我们的数据。😊,它们几乎解决了所有电子表格无法解决的问题。这就是为什么,正如我们在课程开始时听到 Ryan 告诉我们的那样,几乎每家公司都在其公司的某些数据部分使用关系型数据库。它们在数学上很优雅,并且非常适用于适合放入列和行的数据。这也是为什么作为数据分析师,学习如何与这类数据库交互将使你受益匪浅。

本节课中我们一起学习了关系型数据库的核心设计思想。我们了解到,它通过将数据分解为具有统一主题的独立表来解决大型电子表格的问题,从而提高了存储效率、数据完整性和检索速度。其背后的集合论和关系代数基础确保了数据操作在数学上的最优性。我们还探讨了关系型数据库设计的关键要求及其在安全性和权限控制方面的额外优势。掌握这些概念是有效使用和分析存储在关系型数据库中数据的重要基础。
135:加速SQL学习的数据库设计工具 🛠️

在本节中,我们将探讨如何通过理解数据库设计工具来加速SQL查询语言的学习。我们将介绍两种核心工具:实体关系图(ER图)和关系模式,并解释为何掌握它们对高效编写SQL查询至关重要。
上一节我们了解了关系数据库如何运用集合论和关系代数来提取数据。本节中,我们来看看如何学会告诉数据库我们想要什么数据。
向数据库请求数据的方式是编写并执行一种称为“查询”的指令。我们用来编写查询的语言或代码称为SQL,即结构化查询语言。SQL被每一个关系数据库管理系统(简称DBMS)所使用,尽管不同平台间可能存在细微差别。
作为一名数据分析师,在你的职业生涯中几乎必然会与关系数据库打交道,甚至可能每天如此。即使你接触的数据库不使用传统的关系结构,大多数数据库管理系统也极力使其查询语言尽可能与SQL相似,因为SQL在数据库领域非常直观且无处不在。因此,无论你最终使用何种数据库平台,学习SQL都将推动你的职业发展。并且,你对SQL工作原理理解得越深,你在市场上的优势就越大。
我对学习SQL的看法与许多课程中的观点略有不同。作为一名数据分析师,你会编写大量查询,但除非你在早期初创公司工作,否则通常不会负责建立或维护数据库。然而,我的经验表明,如果你了解一些用于建立数据库的基本工具,你将能更快地学会编写查询,并且你的查询效率会更高。此外,如果你懂得阅读数据库工程师和管理者创建的文档,那么当你开始编写查询时,你的工作会轻松得多,并且更不容易犯下某些导致误解数据的错误。

因此,我非常希望找到方法,让本课程的学生接触到用于设计数据库的工具。幸运的是,我最喜欢的工具之一的创建者非常慷慨地同意与我们分享他的资源。或许并不意外,他也认同我关于学习SQL的观点。😊

以下是他的介绍:
大家好,我叫Nna Dage,是芝加哥洛约拉大学昆士兰商学院的信息系统教授。作为一个纯粹的初学者,如果不了解关系数据库模型本身的一些基础知识,学习SQL是很困难的。关系数据库模型中连接表的核心概念是外键。如果一个人不理解它为何存在、如何工作,学习SQL就会变得非常不自然。因此,在我看来,学习SQL的最佳方式是先学习一些关于数据库设计和建模的基础知识,然后再开始学习SQL。
以下是两种对理解数据库至关重要的设计工具:
实体关系图(ER图) 是一种数据库设计工具,对你理解数据关联非常有帮助。ER图是一种图示,展示了数据库中数据应该如何相互连接或关联。
关系模式 是另一种你将受益于学习如何阅读和理解的数据库工具。关系模式本质上是数据库的“地图”。有时,关系模式可能缺少ER图中包含的一些重要信息,因此练习和理解这两种工具都很有用。
Naned设计了一个非常出色的在线程序,可以让我们练习创建ER图和关系模式。因此,本周接下来的安排如下:
在接下来的几个视频中,我们将讲解关系数据库如何组织的实用概念,并学习如何制作ER图和关系模式。然后,Naned将亲自向你展示如何使用他创建的优秀在线工具。在完成几个练习作业后,你将回答一些关于本课程后续将使用的真实百货商店数据的关系模式的问题,并且你将为我们后续将使用的真实初创公司数据创建自己的ER图和关系模式。
这将为你做好准备,以便在下周我们开始编写SQL查询时,学习如何回答关于这些数据集的商业问题。

本节课中,我们一起学习了数据库设计工具(ER图和关系模式)对于高效学习SQL的重要性,并概述了接下来的学习路径。掌握这些基础将为你后续的SQL查询学习打下坚实基础。
136:实体关系图工作原理详解 🗺️

在本节课程中,我们将学习关系型数据库的基本构成单元,并掌握如何绘制和理解实体关系图。
概述
我们将探讨关系型数据库的核心组成部分,并学习如何解读和构建实体关系图。理解这些概念对于设计数据库和编写复杂查询至关重要。
数据库与表的关系
上一节我们提到,数据库是表的集合,每个表都有一个统一的主题。接下来我们将更深入地强调,这些表通过一个或多个具有相同值的列相互连接。
这些列允许您连接不同表中的行。例如,订单表中的“客户联系人”列与客户联系人表中的“联系人ID”列填充了相同类型的值。当订单表的客户联系人列某一行出现“CID1”值时,我们可以在客户联系人表的联系人ID列中查找“CID1”,从而找到该客户联系人的所有信息。
实体关系图的作用
确定要收集哪些信息以及如何组织信息以链接表可能很复杂。因此,数据库架构师通常在创建数据库之前绘制一种称为实体关系图(ER图)的图表,以便向团队其他成员传达他们打算实现的数据库结构。
ER图可能看起来像这样。绘制者可能为其上色,使其看起来像一束花,至少在我看来是这样。通常,它们看起来像是由线条连接的一堆椭圆形、矩形和菱形。显然,ER图不是美术作品。
ER图旨在表示数据中的概念关系,即什么与什么相关以及如何相关。即使您一生中从未设计过数据库,能够阅读这些图表对于编写复杂的查询也很有帮助。此外,查看许多ER图以了解不同数据和数据库的组织方式,将帮助您建立对将在自己的数据库中处理的数据关系类型的直觉。
现在,让我们深入了解这些图表的各个部分代表什么含义。
ER图的构成要素
以下是ER图的基本组成部分:
- 实体:ER图中的矩形框称为实体。它们代表数据库将跟踪的数据类别。每个框是一个类别,当数据库建成时,每个实体很可能成为一个表。
- 属性:ER图中的椭圆形称为属性。它们代表每个类别或实体将被记录的各个方面。属性很可能成为围绕该实体构建的表的列。
在ER图中,每个属性必须至少连接到一个实体。此外,根据集合论的规则,每个属性对于实体必须是唯一的。因此,理论上,您不应该在学生实体中拥有两个“大学入学日期”。
相关术语
让我们暂时离开ER图,讨论更多术语。
- 实体实例:每次收集与实体相关的数据时,这些数据统称为一个实体实例。您可以将实体实例视为数据表中的行。
- 唯一属性/键/标识符:实体最重要的属性是对于每个实体实例都具有唯一值的属性。正式地,它们被称为唯一属性;非正式地,它们有时也被称为唯一键或唯一标识符。在表格形式中,唯一属性或键或标识符将是一个为每一行都具有不同唯一值的列。它们就像我们之前看到的允许我们链接表的ID列。每个实体必须至少有一个作为唯一键或标识符的属性。
掌握了这些词汇后,我们现在可以回到我们的图表。
在图中表示唯一性
您可以通过在椭圆形中的标题下划线来指示实体中的唯一属性。在我们的图表中,学生ID是学生的唯一属性,大学名称是大学的唯一属性。这意味着每个学生都将拥有自己唯一的学生ID,每所大学都将拥有自己唯一的名称。如果一个实体中有多个属性被划线,那么在数据库实现时,其中任何一个都可能被用作唯一键或标识符来将该表与其他表链接。
实体间的关系
数据库中的每个实体或类别必须至少与另一个实体相关。您使用菱形和线条来表示和描述这些关系。
菱形上的单词阐明了关系的性质。在所示的图表中,学生就读于大学。现在,这对于需要查询数据库以检索信息的分析师来说变得非常重要。
关系的基数约束
ER图中实体之间的每个关系都显示了一个实体的多少个实例与另一个实体的多少个实例相关联。回想一下当我们询问关于Eggars Rose咖啡电子表格的问题时,如果我们知道列之间关系的性质,许多关于数据条目是否正确或错误的问题本可以得到解答。例如,每家公司是有一个联系人还是可以有多个联系人?顺便说一下,结果是可以有很多个。每个订单是否恰好从一个配送中心供应,还是可以来自多个配送中心?一个给定的Eggars Rose咖啡员工可以关联多少个地址?
这些限制以及两个实体之间的关系(一旦实体被制成表,也最终意味着链接两个表的列中的值之间的关系)被称为基数约束,它们由我们ER图中实体矩形旁边的小符号表示。
解读基数符号
ER图有几种不同的格式,但在本课程使用的格式中,最靠近矩形的符号表示可以与另一个实体关联的该实体的最大实例数。而离矩形最远的符号表示可以与另一个实体关联的该实体的最小实例数。
要理解具有这种格式的ER图中实体之间的关系,总是从一个实体开始,沿着连接线,然后解释最靠近第二个实体的符号。
因此,如果我们从这里的图表中的大学开始,我们可以看到每所大学都有学生就读。这里的符号是最靠近学生的符号,因此我们将用它们来解释这个方向的关系。
- 如果实体旁边的符号是一条直线,那意味着“一”。
- 如果符号看起来像鸟爪,那意味着“多”。
请记住,离第二个实体最远的符号表示最小值,而最靠近第二个实体的符号表示最大值。
所以,我们解读这个图表的方式是:每所大学必须至少有一名学生就读,但可以有多名学生就读。我们解读相反方向关系的方式是:每个学生最少就读一所大学,但最多就读一所大学。
特定基数约束
有时ER图提供的基数约束比简单的“一”和“多”更具体。当它们这样做时,这些约束由括号内的具体数字表示。
关于特定基数约束的符号,有两件重要的事情需要知道:
- 括号内的数字在最小约束方面优先于直线符号。
- 请注意这一点,因为它可能令人困惑:括号内的数字总是左边写最小数,右边写最大数。这是为了与总是从左到右书写的书面语言保持一致。
重要的是,数字总是按这个从左到右的方向书写,即使数字和括号指的是从右到左方向描绘的关系。我知道这有点奇怪,但让我展示一下我的意思。
如果我们从这个方向(即从右到左)阅读这个ER图,尽管通常等于“1”的直线符号存在,尽管数字和括号的书写方式是最小数在左边,最大数在右边,但我们仍将图表解释为:每所大学必须至少有1000名学生就读,最多有10000名学生就读。
其他重要符号
另一个需要知道的符号是“M”,我有时也看到它被写作“N”。它意味着“无限”。如果10,000被替换为M或N,那将意味着大学可以被无限数量的学生就读。
另一个需要知道的符号是圆圈。圆圈意味着“可选”。因此,如果我们从左到右阅读这个ER图,我们会了解到每个学生最多可以就读两所大学,但不必就读任何大学。顺便说一下,作为一个细节,为了使这种解释有意义,数据库中必须有一些此处未显示的其他属性,可以用来解释为什么该学生与数据库相关,即使他或她没有就读大学。例如,也许他们转学或工作了。
总结

本节课中,我们一起学习了实体关系图的基本构成和解读方法。我们了解了实体、属性、实体实例和唯一键等核心概念,并掌握了如何通过符号解读实体间的基数约束关系。理解这些是有效设计数据库和进行数据分析的基础。在下一个视频中,我们将讨论一些更复杂的ER图,让您对现实工作中可能遇到的数据库组织方式有更深入的了解。
137:通过实体关系图解析数据库结构 🗺️

在本节课中,我们将学习如何解读实体关系图,并通过几个具体例子来理解数据库中可能遇到的更复杂的组织结构。掌握ER图是理解数据库关系、构建正确查询的关键。
解析复合属性与键
上一节我们介绍了ER图的基本元素,本节中我们来看看一个具体的例子。在这个例子中,“教室”是我们的实体。

“教室ID”是一个带下划线且被括号括起来的属性,并且它自身附带了两个属性。这意味着什么?如果你仔细查看图的细节,会发现附属于“教室ID”的两个属性是“楼栋”和“房间号”。
由于它们没有下划线,这两个属性在数据库中的值都不是唯一的。然而,“教室ID”被下划线和括号标注的事实表明,如果将“楼栋”和“房间号”的值组合在一起,你将得到一个唯一的标识符或键,该键对于表中的每一行(或更正式地说,每个实体实例)都是不同的。
ER图通过两种方式告诉我们这一点。首先,“教室ID”在括号内,这意味着它是一个复合属性。复合属性是具有重要意义的度量或描述,但可以通过组合其他被跟踪和保存的属性来创建。为了节省空间,复合属性通常不会在数据库中形成自己的列。
由于“教室ID”连接到“楼栋”和“房间号”,我们知道它们必须是组合起来构成“教室ID”的属性。“教室ID”同时被下划线和括号标注,告诉我们这个复合属性对于识别每个唯一的教室至关重要。
其实践意义在于,如果“教室”实体被制成一个表,并且你尝试将另一个表与之合并或连接,那么你的连接操作只有在同时使用“楼栋”和“房间号”这两个属性来创建唯一键标识符时才会生效。仅使用一个属性是行不通的。如果因为数据库配置不当而生效,你也不会得到正确的答案。
理解弱实体与部分键
让我们看另一个例子。这个例子与我们刚才看到的有些相似,但有一个重要区别。
在这个例子中,“楼栋”现在是一个实体,它有一个可以用作唯一键的唯一属性。这个唯一键就是“楼栋ID”。然而,“楼栋”与“公寓”相关联,“公寓”被描绘成一个双矩形,其唯一键则不那么明确。
“公寓号”用虚线标出下划线,我还没有告诉你虚线或双矩形、双菱形代表什么。“公寓”是一个被称为弱实体并带有部分键的例子。
双矩形表示它是一个弱实体。“公寓号”下面的虚线意味着数据库中的“公寓号”本身并不能唯一标识一个公寓。换句话说,数据库中有多个“4号公寓”。因此,“公寓号”最多只能是一个部分键。
尽管如此,一个部分键在其所属的弱实体内可以变得唯一,当且仅当它与一个通过双菱形连接的实体的唯一键相结合时。所以在这种情况下,“公寓号”如果与“楼栋ID”结合就会是唯一的,因为“楼栋”是通过双菱形与“公寓”连接的实体。换句话说,每栋楼里每个公寓号只有一个实例。
请注意,将“公寓号”与“楼栋”中的任意属性(如楼层数)结合,并不会创建一个唯一的标识符,你必须将其与“楼栋ID”这个唯一属性结合。如果你要提取数据来分析公寓信息(例如,如果你想检查单个单元的用电量),你需要确保理解这一点。
处理多表关联的复杂场景
好的,让我们看一个稍微复杂一点的例子。花点时间看看,试着猜猜发生了什么。
总的来说,你可以看到学生正在上很多课,但在这个数据库中,学生姓名不能直接与课程级别或ID相关联,尽管“学生”和“课程”实体都有唯一属性。显然,连接它们的唯一方式是通过上课的“学期”将它们结合起来。
这意味着学生可以多次选修同一门课程,可能是因为如果他们第一次或第二次考试不及格或成绩很差,可能需要重修。如果你想分析关于学生和课程的数据,你必须组合的不是两个表,而是三个表才能获得你想要的数据。
此外,由于“完成情况”是一个弱实体,当你实际编写查询时,在尝试连接表时,必须确保同时指定部分键和唯一键。
这是一个很好的例子,说明了在现实生活中,我们试图放入表格格式的数据可能很复杂。如果你没有数据库的“地图”来帮助你理解情况,可能需要相当长的时间才能弄清楚如何将数据库的不同部分组合在一起,以正确提供你想要的信息。
有时你可能需要在一个查询中将四五个表组合在一起,而这些表中的每一个都可能需要以不同的方式与其他表链接。
掌握ER图的重要性与练习
这就是为什么我要确保你先理解ER图。正如我之前所说,阅读许多不同数据库的ER图会让你了解在现实生活的数据库中可能会看到哪些类型的关系,并让你积累处理一些可能导致数据分析问题的奇怪情况的经验。
当你处理那些在交给你之前没有经过清理的数据库时(例如你可能在中小型公司遇到的数据库),这将是一段特别有用的经历。当你正在使用的数据库最初并不是为当前正在收集或分析的数据而设计时,你也会在大公司中看到奇怪的数据库关系出现。
我要确保你理解ER图的第二个原因是,如果你确实发现自己难以从关系数据库中获取所需信息,你将能够向数据库管理员索要该数据库的ER图来帮助你解决问题。
对许多人来说(我也希望对你来说),以这种非常直观的方式在眼前呈现数据库,可能是将数据库地图转化为自己脑中概念的最佳方式,这反过来将帮助你构建有效且准确反映你意图的查询。
我已经在课程材料中包含了一些由芝加哥洛约拉大学昆兰商学院的Nana Juicch教授从他自己的教科书中捐赠的ER图。虽然不要求你完成它们,但我强烈建议你去做。

我想确保你至少有机会完成这些练习,因为最终,如果你学习了很多ER图并且有信心理解它们所代表的概念,你将成为一名更强大的SQL用户。

总结
本节课中我们一起学习了如何解读复杂的实体关系图。我们分析了复合属性(如(ClassID = Building + RoomNumber))的构成与意义,探讨了弱实体和部分键(如Apartment实体)的概念及其在连接查询中的重要性。通过一个学生选课的多表关联例子,我们认识到现实数据库结构的复杂性,以及ER图在理解表关系、构建正确SQL查询(如涉及多表JOIN和复合键条件)中的关键作用。掌握ER图是高效、准确进行商业数据分析的基石。
138:关系模式 📊

在本节课中,我们将学习如何解读和创建关系模式。关系模式是数据库实际组织结构的蓝图,它清晰地展示了表、主键和外键之间的关系,是理解数据库结构的关键工具。
从ER图到关系模式
上一节我们介绍了如何阅读ER图。ER图代表了数据库架构师需要实现的概念,但它并不直接展示数据库的实际组织方式。一个设计良好的数据库,其ER图会与最终的数据结构非常相似。为了描述数据库的真实模型,我们需要使用关系模式。
关系模式的核心组件
关系模式的关键组成部分是表、主键和外键。为了理解这些组件如何与ER图中的信息对应,让我们来看一个之前视频中见过的ER图是如何被转换成关系模式的。
总的来说,ER图中的每个实体都变成了关系模式中的一个表。在深入讨论“表”之前,需要说明的是,有些专业人士不赞成在讨论关系模式时使用“表”这个词。
关系模式可以被视为数据库的蓝图。就像汽车的蓝图告诉你汽车如何建造的重要信息,但它不等于造好的汽车一样。关系模式告诉你数据库将如何组织的重要信息,但它不等于已建成的数据库。构建数据库需要比关系模式所表示的更多的工作和详细信息。此外,关系模式通常是一个计划,而数据库是已经建成的东西。
如果你认为区分数据库设计背后的逻辑思想与这些思想在数据库中的物理实现很重要,那么你会对数据库设计中的概念和数据库创建中的步骤使用不同的词汇。这就是为什么有些人会对将关系模式中的方框描述为“表”感到不满。
关系模式中方框所代表现象的技术术语是“关系”,这个词再次源于集合论。关系是一个逻辑概念,作为数据库物理基础的组织形式。在本课程中,强调数据库的理论设计与物理实现之间的差异并不重要,因此我将把“关系”称为“表”。实际上,我会告诉你关系模式中描述现象的技术术语是什么,但我会像许多数据库使用者(而非设计者)一样,使用通用名称来谈论它们。这将使我们更容易实现课程目标,即学习SQL,而不是构建数据库。尽管如此,你应该知道,数据库领域的许多人强烈认为“表”、“行”和“列”等词不适合描述关系模式。我也会确保你知道技术术语,以防你需要与持这种观点的人交流。
解决了这个问题后,让我们回到我通常称为“表”的关系模式上。
表的构成:列、行与元组
关系模式中的每个表(或用理论术语说,每个“关系”)都有一组列,这些列也可以称为“字段”。这些列代表我们之前在ER图中看到的属性,并且它们在关系模式中正式的名称也是“属性”。表中的每个条目是一行或一条记录。表中实体的物理术语是“元组”。理论上,一个关系中不能有重复的元组;但在实践中,表中可以有重复的行,这对分析师来说可能很烦人。无论在理论还是实践中,表中的列都不允许有特定的顺序;有时看起来可能有,但表中的行也没有特定的顺序。为了使集合论生效,并使数据库能够正确且尽可能快地返回查询结果,列和行都必须是独立的。因此,请记住,除非你明确告诉查询以某种方式输出数据,否则永远不能相信查询输出数据的顺序。
主键:表的唯一标识符
在关系模式中需要关注的关键点是,每个表都必须有一个主键。表的主键将是我们之前视频中讨论过的列之一,它为表中的每一行提供一个唯一的标识符。在关系模式中,主键会被加下划线,就像在ER图中一样。然而,ER图和关系模式之间的一个关键区别是:虽然在ER图中你应该为所有唯一属性加下划线,但在关系模式或数据库的一个表中,只能有一个唯一的列被标记为主键。唯一的例外是,如果你需要多个列来使表中的每一行都唯一。你只能有一个主键的原因是,数据库软件以特殊方式使用主键来确保数据完整性。为了维护这种完整性,主键被配置为不能包含任何缺失值,尽管如果数据库配置过于灵活,缺失值偶尔也会混入。相比之下,其他唯一列可以配置为允许空值。尽管有空值,你仍然可以使用非主键的唯一列来链接表。不过,当你运行这些查询来帮助你建立链接时,在模式中用“U”标记唯一列是很有用的,这样你就知道哪些列可以在查询中用于链接表。
外键:表与表之间的桥梁
下一个需要了解的重要概念是外键。外键用于将表链接到其他表;它们通过拥有指向其他表中唯一ID的值来实现这一点。在我们的“Egarers Rose coffeeoff”示例中,contact ID 是订单表中的一个外键,它让我们将每个订单与客户联系表中的客户联系信息链接起来。你在关系模式中通过从一个表中的外键绘制箭头指向它在另一个表中引用的主键来指示外键。在外键列的名称旁边写上缩写“FK”也是很好的做法,但有些人会省略这一点。重要的是要知道,外键和与之匹配的主键不必使用相同的标题。希望一个好的数据库设计师至少会让名字看起来相似,但你不能指望总是如此。这就是为什么关系模式对于试图查询数据的分析师来说如此有帮助的原因之一。
解读关系模式示例
现在你知道了关系模式的基本组成部分,让我们看一些关系模式的其他例子,看看是否能理解它们的含义。我们将从一个相对简单的开始。
这里,我们的数据库正在跟踪员工和他们的电话号码。每个员工由其自己唯一的员工ID标识。每个电话号码本身是唯一的。在查询中,可以使用两个表中都存在的员工ID号将电话号码与员工匹配起来。不过,你可能会注意到,关系模式中没有说明有多少员工可以匹配一个电话号码。有可能两个员工住在一起,共享同一个家庭电话号码。也有可能一个员工提供了多个电话号码。这个版本的关系模式没有提供这些信息。包含这些信息的版本将使用我们学习ER图时学到的相同符号。例如,这里我们看到每个员工必须至少有一个电话号码,并且可以拥有多个电话号码。每个电话号码必须与恰好一个员工相关联。许多关系模式不包含基数信息,这是理解ER图和关系模式都有用的另一个原因,也是为什么你在开始使用数据库时应该同时索要两者的原因。
让我们看看弱实体在关系模式中如何表示。这里我们的数据库正在跟踪建筑物和公寓。每个公寓由公寓表中的公寓号码和建筑表中的建筑ID组合唯一标识。你可以从公寓表中apartment ID和building ID都被加下划线,并且此外,该表中的building ID是建筑表中building ID的外键这一事实来推断这一点。你可能还记得这个例子,因为我们刚刚制作的关系模式描绘了之前视频中在这个ER图中讨论过的弱实体。
让我们再看一个关系模式的例子。这里,我们的数据库正在跟踪学生和课程。它还有另一个名为“Enrolled in”的表,该表只有外键作为属性。当对应ER图中的实体具有所谓的“多对多关系”时,必须实现这种类型的映射表。在这种情况下,每个学生可以注册多门课程,每门课程可以有许多学生注册。在这些情况下,无法遵循主键不能重复的规则,同时仍在同一个表中包含外键作为主键。因此,创建了一个只有复合主键的映射表。该复合键由两个外键组成,这两个外键链接到多对多关系的两个表的主键。每当你在数据库中看到这样的映射表时,它就是一个线索,表明它所链接的表和列可以彼此拥有多个实例。
练习与总结
我已经在课程材料中包含了一些关系模式练习,这些练习再次由芝加哥洛约拉大学昆兰商学院的Nana Juicch教授提供。这些练习源自他在这里展示的教科书。与ER图练习一样,你不必完成这些练习,但我强烈建议你这样做。请特别注意外键的位置,然后仔细思考如果你想将分散在不同表中的列链接在一起,需要引用哪些列。
由于关系模式是你拥有的最接近数据库地图的东西,学会轻松阅读它们将使你以后能够更轻松地使用有效的查询来导航数据库。你还应该意识到,你经常会获得一个没有关系模式或任何数据库内容描述的数据库访问权限。当这种情况发生时,知道如何自己生成关系模式将对你有用,这样你就可以在开始进行数据分析时参考它。在下一个视频中,我们将向你展示如何使用ERD Plus(一个Nd创建的在线工具)来制作关系模式,该工具旨在帮助人们设计数据库。

本节课中我们一起学习了关系模式的核心概念,包括表(关系)、主键和外键的定义与作用。我们探讨了如何从ER图转换到关系模式,并解读了几个示例来理解表之间的关联。掌握阅读和创建关系模式是有效查询和分析数据库数据的基础。
139:使用ERDplus创建实体关系图 🛠️
在本节课中,我们将学习如何使用一个名为ERDplus的在线工具来创建实体关系图。实体关系图是数据库设计中的核心工具,它能帮助我们直观地规划数据表及其关联。通过本教程,你将掌握从注册账号到绘制完整ER图的基本流程。

概述
我们已经了解了实体关系图和关系模式的工作原理。接下来,Nad Juicch将向我们展示如何使用他的工具ERD+来创建我们自己的图表和模式。这个工具可以在ERD+.com找到。
访问与注册
当你访问该网站时,会看到一个可以注册免费账户的地方,以便保存和修改你的工作。
注册账户后,你将看到这个主屏幕,上面列出了你制作的所有图表。
工作区介绍
如果你创建一个新图表或打开一个旧图表,程序会将你带到这个工作区或图表绘制界面。
所有允许你向图表添加新组件的按钮都位于屏幕顶部。
所有让你命名或定义图表组件的菜单项都位于屏幕右侧。
导出图表
当你对图表感到满意后,请记住屏幕左上角的这个图表按钮。
它可以让你将图表导出为图像,以便日后保存以供参考。
你会发现这个工具非常直观。现在,让Na dad来接手介绍。
工具介绍
你好,我叫Nna Dch。我是芝加哥洛约拉大学昆士兰商学院的信息系统教授。
我很高兴你即将使用ERD+,对于像你这样正在学习数据库的人来说,这是一个极好的工具。
希望你喜欢这个工具,并祝你的课程顺利。
创建ER图演示
这个视频演示了如何使用ERD+来创建一个ER图。
登录你的账户后,进入图表部分。
点击“新建”并选择“ER图”选项。
点击新ER图的名称以进入绘图界面。
让我们创建一个简单的ER图。
创建实体
我们将点击实体图标,并将实体放置在绘图界面的任意位置。
我们将第一个实体命名为 location。
我们将为这个实体添加两个属性:location ID 和 location name。
我们将声明 location ID 是唯一的。
现在,让我们添加另一个实体。
我们将这个实体命名为 Project。
我们添加属性:Project ID 和 project name。
Project ID 是唯一的。
我们再添加一个实体。
将其命名为 employee。
Employee 有 employee ID(唯一)和 employee name。
创建关系
现在我们可以在这些实体之间创建一些关系。
要创建关系,我们必须点击连接图标,然后点击一个实体(本例中是 project),并拖动到另一个实体(本例中是 location)。
我们刚刚在 project 和 location 之间创建了一个关系。
我们将这个关系命名为 takes place。
定义基数约束
现在,我们将为这个关系声明基数约束。
每个项目 takes place 恰好在一个地点。
而每个地点 has 至少一个项目在此进行,但可以有很多。
现在,让我们在 employee 和 project 之间再创建一个关系。
再次点击“连接”,点击 Employee 并拖动到 Project。
我们将这个关系命名为 works on。
每个员工 works on 至少一个项目,但可以参与多个。
每个项目 has 至少一名员工为其工作,但可以有很多。
works on 是一个多对多关系。
为关系添加属性
多对多关系可以拥有属性。
为了演示,我们将为这个 works on 关系创建一个属性。
我们将创建一个属性,并将其命名为 number of hours。
这表示它记录了每个员工在每个项目上工作的小时数。
总结

本节课中,我们一起学习了如何使用ERD+工具来创建实体关系图。我们从注册账户、熟悉工作界面开始,逐步完成了创建实体、定义属性、建立关系以及设置基数约束的完整流程。记住,多对多关系可以拥有自己的属性,这在设计复杂数据库时非常有用。掌握这个工具将帮助你更高效地进行数据库的可视化设计。
140:使用 ERDplus 构建关系模式 📊

在本节课中,我们将学习如何使用 ERDplus 工具,从一个实体关系图(ERD)出发,构建出对应的关系模式。关系模式是设计数据库表结构的基础,清晰地定义了表、列、主键和外键。
上一节我们介绍了如何使用 ERDplus 绘制实体关系图。本节中,我们来看看如何将 ERD 转换为具体的关系模式。
准备工作
在开始构建关系模式之前,我们需要一个已完成的实体关系图作为基础。请记住以下示例 ERD 的结构,它包含地点、项目、员工实体,以及员工与项目之间的“工作于”多对多关系。

创建新的关系模式
登录您的 ERDplus 账户后,进入图表(Diagram)区域。
以下是创建新关系模式的步骤:
- 点击“新建”(New)。
- 选择“关系模式”(Relational Schema)。
- 点击新关系模式的名称,进入绘图界面。

构建数据表
现在,我们开始根据 ERD 创建对应的数据表。

创建地点表
我们首先创建名为 location 的表。
以下是 location 表的列定义:
- L_ID:地点ID。
- L_name:地点名称。
点击“主键”(Primary Key)按钮,选择 L_ID 作为该表的主键。
创建项目表
接下来,创建名为 project 的表。
以下是 project 表的列定义:
- P_ID:项目ID。
- P_name:项目名称。
- L_ID:外键,引用
location表的主键L_ID。
要创建外键,请点击“连接”(Connect)按钮,然后从提供外键的表(location)按住鼠标左键,拖拽到接收外键的表(project)。这将自动创建外键列。
然后,点击“主键”按钮,选择 P_ID 作为该表的主键。
在 ERDplus 中,您可以轻松调整列的顺序。尝试将 L_ID 列上移或下移一个位置。
创建员工表
现在,创建名为 employee 的表。
以下是 employee 表的列定义:
- E_ID:员工ID。
- E_name:员工姓名。
点击“主键”按钮,选择 E_ID 作为该表的主键。
创建桥接表
最后,我们需要创建一个桥接表 works_on,它源于员工和项目实体之间的多对多关系。
点击“表”(Table)工具,将其命名为 works_on。
此表需要添加两个外键:
- 来自
employee表的E_ID。 - 来自
project表的P_ID。
使用“连接”工具,分别从 employee 表和 project 表拖拽到 works_on 表,创建这两个外键。
此外,该表还有另一列:
- number_of_hours:表示每位员工在每个项目上工作的小时数。
现在声明此表的主键。主键是一个由 E_ID 和 P_ID 组成的复合主键。

完成与导出
至此,我们的示例关系模式已经创建完成,它会自动保存在您 ERDplus 账户的图表区域。

您可以通过以下方式导出您的工作:

- 导出图表文件:点击图表,选择“导出图表文件”,可将图表保存到电脑。
- 导出图像:点击“导出图像”,保存为图片格式。这便于您日后将图表复制粘贴到 PowerPoint、Word 或其他应用程序中使用。

本节课中,我们一起学习了如何使用 ERDplus 工具,从一个实体关系图逐步构建出完整的关系模式。我们实践了创建数据表、定义主键与外键、建立表间关联以及导出成果的完整流程。掌握这一技能,能为后续在 MySQL 等数据库中实际创建表结构打下坚实基础。


141:第一周课程总结 📚

在本节课中,我们将对第一周关于关系型数据库核心概念的学习内容进行总结,并展望下一阶段的学习方向。
概述
第一周我们重点学习了关系型数据库的基础,特别是实体关系图和关系模式。这些知识是理解数据库如何组织和关联数据的关键。
课程内容回顾
截至目前,你应该已经完成了我们发布的关于实体关系图和关系模式的练习。通过这些实践,你对关系型数据库的工作原理应该有了较好的理解。
掌握了这些新知识后,你已经为下周的学习做好了准备。下周我们将开始学习如何编写查询语句。
学习展望
接下来的学习将充满乐趣。😊
为了激发你的学习热情,我们想与你分享一个有趣的思考:永远不要请数据库管理员帮你搬家具。因为他们似乎总是在“删除表”。

总结

本节课中,我们一起回顾了第一周关于实体关系模型和数据库设计的核心内容,并预告了下一周将进入SQL查询学习的精彩阶段。我们下周再见。
142:第二周课程导论 🚀

在本节课中,我们将要学习如何开始编写 SQL 查询,并理解在分析大型数据集时,编写高效、考虑他人影响的查询的重要性。
上周我们学习了数据库的组织方式,并练习了如何创建和解读实体关系图与关系模式,以理解待分析的数据在数据库中是如何存储的。
本节中我们来看看本周的核心内容:编写 SQL 查询。你将首先学习如何编写对同事友好的查询。
我们将使用来自两家真实公司的数据集进行查询分析。以下是两个数据集的基本信息:
- 一个数据集由北卡罗来纳州达勒姆市的一家本地初创公司 Dogogniian 捐赠,其数据表包含超过 100 万行。
- 另一个数据集由一家名为 Dillers 的全美百货连锁店捐赠,其数据表包含超过 1 亿行。
处理这种规模的数据时,需要牢记一个重要事项:你编写的查询将影响公司内其他人检索数据的速度。这意味着,当你获得从公司数据库查询原始数据的机会时,也伴随着一份责任,即编写尽可能减少对他人影响的查询。
为了让你在实践中体会这份责任,本课程中你编写的查询(就像在公司中一样)将影响他人的数据库使用体验。我们为本课程搭建的 MySQL 数据库基础设施,为每组约 150 名学生提供数据库访问权限。当你编写一个极其消耗资源的查询时,它可能会减慢甚至导致你所在小组约 150 名学生的数据库访问崩溃。如果发生崩溃,请不必担心,我们当然会为你重启数据库。
我们特意以这种方式设计课程,是为了让你在一个安全的环境中,有机会了解编写高强度查询的后果。我们希望这能激励你养成良好习惯,防止未来在自己公司的数据库中编写此类查询。
😊 你在第一个 MySQL 课程中将学到的另一个重要内容是,如何使用 SQL 查询来验证和描述数据库中的所有内容。以下是两种常见的、可能导致查询运行时间极长的情况:
- 要求数据库返回一个非常庞大的数据表中的所有数据,即使你并不需要该表中的全部数据。
- 由于列中存在多对多关系或行中存在重复值,要求数据库合并表格,导致输出的行数远超预期。
因此,防止自己编写不必要的高消耗查询的最佳方法之一,就是详细了解你的数据。如果你知道哪些表是大型表,并且知道合并不同表的信息时会产生什么结果,你就不太可能无意中编写出让数据库徒劳工作的查询。
为了帮助你为编写这类查询做好准备,接下来的两个视频将详细介绍我们将要使用的数据集。随后的视频将展示如何使用我们为课程设置的用户界面与这些数据集进行交互。然后,你将用本周剩余的时间,使用这些界面来练习查询。

到本周末,你将能够了解并描述数据库的全部内容,并能够以对社会负责的方式从特定表中导出数据。这将是收获丰硕的一周。希望你已准备好开始学习。请观看接下来关于数据集的视频以开启学习之旅。😊
143:认识Dognition数据集 🐕


在本节课中,我们将学习一个真实的商业数据集——来自Dognition公司的数据。我们将了解这家公司的业务、其产品如何运作,以及他们希望通过数据分析解决的核心商业问题。

我们在这门课程中非常幸运,能够使用来自真实商业环境的真实数据集。这家公司名为Dognition。今天,我们邀请到了Dognition的制作人Elliot Cohen,他将为我们介绍他捐赠给我们的数据集。
Dognition是一个面向全球狗主人和爱狗人士的平台,旨在帮助他们更深入地了解自己的狗。该公司将世界各地犬类认知实验室中的科学游戏进行拆解,并利用家庭中常见的物品进行重构,让任何人都能在家中进行测试。然后,他们汇总所有数据。目前已有超过3万名用户参与Dognition游戏,公司从群体层面分析这些数据。他们最近发表了首篇论文,证明其数据质量与实验室数据相当。
对于参与Dognition游戏的狗主人来说,他们能了解到许多关于自己狗的、原本可能不知道的信息。许多人一开始会想“我知道我的狗是聪明还是笨”,但即使是设计这些游戏的博士,也通过测试对自己的狗Tasmania有了新认识。例如,他本以为Tasmania有很强的主动记忆能力,能轻松回忆事物。但结果发现,它并不太依赖自己的记忆,反而非常依赖主人的指令。所以当主人说“坐下”后它走开,并不是因为它忘记了指令,而是它确实记不住。这就是一个例子,说明通过了解狗所依赖的技能,你能获得新的认知。


Dognition游戏本身分为犬类智力的五个维度。这些维度是:共情、沟通、狡猾、记忆和推理。在这五个维度下,共有20个游戏,实际上是10个正式游戏和10个热身游戏。这些游戏贡献出各维度的分数,从而确定你的狗在某个维度(如记忆)中具体依赖哪些技能,而不是简单地判断它是否使用记忆。根据这些结果,你的狗会被归入九个档案之一。这些档案是不同特质的组合。

一个非常有趣的发现是,狗的品种对其最终属于哪个档案的决定性作用不大。一切取决于狗个体解决问题的方式。

那么登录网站后实际看到的是什么呢?登录Dognition,只需点击登录按钮,等待加载,然后输入用户名和密码即可。登录后看到的首页,是一个已完成所有测试的狗的界面。首页会显示你已完成的所有维度、下个月的推荐游戏、你的活动列表,以及调查角。调查角包含约150个额外问题,用户很喜欢回答,因为人们乐于回答关于自己狗的问题。报告也在这里,共有15页的分析内容。然后用户可以返回游戏界面。
这是一个已完成测试的狗的界面,显示了所有已完成的维度和结果。如果我们看一个未完成测试的狗,比如顶部的Kyle。我们从首页来到这里,看到“接下来”的提示是“玩游戏”。这里显示下一个要玩的游戏,侧边栏列出了需要完成的游戏。Kyle接下来要进行的是“狡猾”维度的游戏。顶部有“开始游戏”按钮,点击即可进入游戏。上方还会显示尚未解锁的游戏,因为用户需要按顺序完成,系统会提醒你需要先完成前一个维度的游戏才能继续。
Dognition提供三种订阅模式来玩其游戏。我们有核心Dognition评估,包含10个游戏和10个测试(或热身),用于生成你的狗的Dognition档案(即九种类型之一)。除此之外,还有Dognition年度订阅和月度订阅。这些是在完成核心评估后,可以与你狗进行的额外有趣活动。主要包括两件事:在一年内解锁12个额外游戏,以及由专家或训练师创建的12个额外活动。这些游戏和活动从你订阅之日起,每月解锁一个。
如果理解正确,每位客户在第一个月都有机会完成20项测试,并且每次都是按照你们设定的相同顺序逐一进行,对吗?Dognition游戏被设计为按特定顺序进行,从共情开始,然后是沟通、狡猾、记忆和推理。这样设计有两个原因。第一,共情游戏实际上是最简单的游戏。除了你和你的狗,以及眼神接触游戏需要零食外,不需要任何其他东西。你不需要训练狗来适应这些游戏,只是和狗一起相处。这很有帮助,因为你不必担心狗是否过度兴奋,这会是一个平静的体验,能让你的狗进入玩游戏的状态。之后,游戏会逐渐变得更加复杂,所以我们认为循序渐进更好。
你们是否尝试过以不同顺序提供测试?在Dognition推出大约六个月后,我们仔细研究了产品在完成率方面的表现,发现我们对用户的进展程度并不满意。初期有非常大的流失率,没有足够多的人坚持到最后。为了解决这个问题,我们的假设是用户可能不太喜欢共情维度,因为它虽然简单易上手,但不够刺激。我们之所以知道这一点,是因为我们设计并实施了一项额外的“乐趣/惊喜”调查。利用从调查中获得的信息,我们提出了一个替代假设:不从共情维度开始,而是从记忆维度开始,因为记忆维度在调查中被评为更有趣,并且结果常常出人意料。但事后我们意识到这样做的缺点:虽然总体完成率和进展没有改变,但它改变了人们能走多远。更多的人完成了第一个维度,但这并不意味着他们能走得更远。记忆维度的缺点是,它的操作说明在技术性上要求很高。如果狗没有采用能获得零食的策略,那它就一点零食也得不到。这会让主人和狗都感到非常沮丧。这就是我们早期测试的一些见解。
那么,现在的问题是:Dognition有什么商业问题,你认为我们或许能帮助解决?Dognition作为一个产品和公司,最基本可以分为两个部分。一部分是我们称之为“宣传册”的部分,即未登录时看到的网站外部版本,包括主页、“如何运作”以及上千个提供更多信息的页面。另一部分是实际的产品本身,即登录后与游戏、训练师、专家或其中任何功能互动的部分。这为我们提供了两个截然不同的可以重点发展的领域。
在Dognition,我们面临一个有趣的问题:我们非常关心客户购买后的行为。一旦你付了钱,这很好,但我们实际上希望你能更多地使用Dognition这个产品。这涉及到,我们真的希望你完成测试。如果你没有完成,我们只能获得你的一小部分数据。而Dognition的总体目标是发表论文,更多地了解狗。用户的贡献有助于我们持续运营。但归根结底,如果我们没有你的数据,我们就一无所有。
因此,我们主要寻求的方向之一是,想办法提高完成率,或者更准确地说,是让用户在Dognition体验和游戏进程中走得更远。我们可以进行很多局部分析,比如只分析完成了第一部分游戏的人,或者只分析特定问卷的回答。但我们真正寻求的是能够进行大规模的对比分析,比如跨所有游戏比较不同品种的狗。因此,任何能为我们提供一些见解,以推动用户和他们的狗完成更多测试的分析,从我们的角度来看都将非常有帮助。
那么,在我们着手解决这个商业问题时,你对课程有什么建议吗?在数据分析方面,我确实有一个建议。我们发现最重要的一点是,你必须在进行每次测试前带着一个问题进去。你需要有一个假设,并且需要确切知道你将如何测试它。因为如果你只是漫无目的地查看数据,要么会发现一些无关紧要的东西(这毫无用处),要么什么也发现不了(同样毫无用处)。所以,在开始分析之前,找到一个可测试的假设,这是我认为唯一真正重要的事情。
那么,你愿意向我们展示一个你们测试的例子吗?当然。我给大家展示“记忆 vs. 指向”游戏。我认为这是一个很好的例子,说明Dognition如何试图了解你的狗使用的策略,这里没有对错之分。这个游戏进行得比较深入,位于记忆维度的末尾部分。具体操作是:我放下几个杯子,在其中一个杯子下藏一块食物,然后站起来,指向我没有藏食物的那个杯子。这将直接表明狗是从我的动作中学习信息,还是记得食物实际所在的位置。让我们看看会发生什么。我们放下两个杯子,狗在对面。Cizu,展示零食。把它放在一个杯子下。然后获取零食。它首先走向的那一边就是它认为有零食的地方,所以它知道零食在那里,尽管我指向了另一边。
是什么让Dognition愿意与我们分享数据并参与这门课程?Dognition非常重视教育。我们想分享关于狗的信息。如果我们有足够的数据和经验,可以分享一些关于如何做出数据驱动决策的信息,那么我们非常乐意提供帮助。
从我们的角度来看,分享数据时非常重要的一点是,我们要照顾好自己和用户。因此,我们分享的所有数据都是匿名的,没有任何对单个用户的引用,没有地址、电子邮件或姓名等任何可以识别个人身份的信息,这些都已从数据中清除,无法追溯到任何人。
现在你已经了解了我们需要共同解决的商业问题,请前往课程网站,查找关于Elliot和Dognition慷慨捐赠的数据集中具体字段的更多详细信息。同时,我建议你去看看Dognition的网站。这是一家非常酷的公司。我想你会对解决他们的商业问题感到兴奋。



本节课中,我们一起学习了Dognition公司的背景、其产品(基于五个智力维度的犬类评估游戏)、三种订阅模式,以及他们核心的商业问题:如何提高用户在完成一系列游戏测试过程中的参与度和完成率,以收集更完整的数据用于科学研究。我们还了解到,在分析此类数据时,带着明确的假设和问题出发至关重要。
144:SQL 查询语法入门 🗂️

在本节课中,我们将要学习 SQL(结构化查询语言)的基本语法结构。无论你是否有编程经验,SQL 的声明式特性都与你可能接触过的其他语言有所不同。我们将重点介绍如何编写一个标准的查询来从数据库中检索数据。
有些学习本课程的人可能从未编程或见过命令行界面。另一些人可能编程经验丰富,但习惯于那些需要精确指定如何达成目标的编程语言。在这两种情况下,SQL(结构化查询语言)都会与你习惯的方式有所不同。因此,本视频将引导你了解编写 SQL 查询的一般结构。
SQL 包含用于创建和操作数据库的多种命令。但由于作为数据分析师,你很少会被授予更改存储数据的权限,我们将专门介绍 SQL 中的 DQL(数据查询语言)部分。这部分语言允许你以任意格式从数据库中检索数据。
每次你想从数据库检索数据时,都需要编写几行 SQL 代码来描述你所需的数据。这些代码行统称为一个查询。你需要将这些查询代码输入到某种能与数据库通信的界面中。这些界面通常被称为数据库的前端界面或用户界面。
前端界面因公司和平台的不同而有巨大差异。有些界面提供许多选项,其图标和组织方式类似于你在桌面操作系统中所习惯的。另一些则可能只是一个包含闪烁光标的黑色窗口。你需要准备好适应任何类型的界面,因为你永远不知道在实际工作中会遇到并使用什么。

尽管界面各不相同,但它们都有某种命令行或命令窗口。这就是你实际编写 SQL 查询的地方。查询执行后检索到的数据通常会立即显示在命令下方,也可能出现在屏幕的单独部分或界面的单独窗口中。在大多数情况下,你需要编写额外的命令或至少按一些额外的按钮,才能将检索到的数据转换为文本文件或能在数据库外部程序中读取的格式。

查询的基本结构
你编写的查询必须全部符合 SQL 语法。所有查询都以一个动词 SELECT 开始。
SELECT 这个词后面跟着一些子句,用于标识你要处理的数据和数据库,并提供关于你具体需要什么数据以及需要什么格式的更多细节。
你使用六个主要的 SQL 关键字,并按特定顺序来提供这些细节。这些关键字及其顺序是:SELECT、FROM、WHERE、GROUP BY、HAVING、ORDER BY。
只有前两个关键字是必需的,其余的都是可选的,仅在需要时使用。
你通常用一个分号结束查询。分号并非总是必需,但由于有时是必需的,养成始终以分号结束查询的习惯是好的。
从这些关键字中你可能推断出,SQL 查询中没有任何内容告诉数据库如何执行查询。相反,查询让你描述你想要的数据,然后由数据库管理系统来规划、优化并执行产生查询结果所需的物理操作。查询的这一特性反映了关系数据库组织和使用方式的一个基本特征。
编写风格与可读性
当你填写查询的一般关键字结构时,听起来有点像在说一种简略的英语:从你想要的数据库和表中选择你想要的数据,其中满足以下条件,按此字段分组,具有此属性,然后按此字段或列表排序。
此外,类似于用英语写作,你可以将整个查询写在一行上,数据库管理系统仍然会执行它。另外,SQL 关键字不区分大小写,因此你甚至可以用小写字母书写它们,使你的查询看起来很像一个句子。
也就是说,在大多数 SQL 界面中,除非在文本字符串内,否则额外的空白通常会被忽略,大小写和引号的处理也与我们感知书面英语中的空格有所不同。此外,查询可能会变得相当复杂和冗长,因此你经常需要保存它们并让其他人审阅。因此,为了使它们更易于审阅,我建议不要像写单个句子那样编写查询。相反,将你的关键字用大写字母书写,并将每个关键字及其后面的子句放在单独的行上。
一些前端界面会为关键字着色,但由于界面各不相同,你不能依赖这一点来使你的查询可读。因此,将查询写在多行上是良好的实践,也是为你审阅代码的同事考虑。
函数与命名规范
SQL 除了我已经告诉你的六个关键字外,还有其他关键字。其中许多关键字是为函数保留的,这些函数是内置于语言中的自包含脚本,用于为你执行特定的计算。函数的一些例子是 SUM 或 COUNT。
函数可以合并到你的查询中。出于我之前提到的相同可读性原因,将它们也用大写字母书写是个好主意。
然而,查询的某些部分不应总是用大写字母书写,特别是表名和列名。有些数据库对列名和表名的大小写敏感,因此按照它们在数据库中存储的确切形式书写名称是一个好习惯。
每当需要在查询中提供如何区分模糊名称的细节时,通常可以使用句点。句点将放在数据库名和表名之间,或表名和列名之间,以确切地告诉数据库你想要哪个表或列。
零值与空值
关于 SQL 查询语法,你还应该知道的一点是,SQL 对待零值数据条目和空值数据条目的方式不同。如果数据库中输入了零,数据库会将零视为一个真实的测量值,而不是数据的缺失。为了表示数据完全缺失,你需要输入 NULL。当数据导入数据库时,缺失值通常会被转换为 NULL 条目,而不是零。
实践环境与数据
到目前为止,我向你介绍的 SQL 语法的一般实践在所有关系数据库系统中都是相同的。然而,每个数据库系统在语法的具体方面确实有其细微的差异。一旦你在一个系统中学会了 SQL,学习另一个系统中的语法并不需要很长时间,差异会非常小。尽管如此,请准备好经常查阅和双重检查语法。即使是最好的程序员也经常需要查阅函数的工作原理,尤其是在处理新型数据库时。
在本课程中,我们将为你提供机会,在两个不同的数据库管理系统、使用两个不同的前端界面和两个不同的数据集来练习编写查询。
我们将使用的两个数据集都有超过一百万行数据。
我们将要处理的第一个数据来自一家名为 Dognition 的初创公司。如果你还没有看过,可以观看“认识你的 Dognition 数据”视频,了解这家非常有趣的公司做什么以及他们希望帮助解决的业务问题。Dognition 数据存储在 MySQL 数据库中,我们将通过一个名为 Jupyter 的前端界面与之交互。
我们将要处理的第二个数据集来自一家规模大得多的公司,名为 Dillard‘s。Dillard‘s 是美国的一家百货连锁店,你也可以观看“认识你的 Dillard’s 数据集”视频以了解更多关于他们捐赠的数据。Dillard‘s 数据集有超过 1 亿行,这将为我们提供一个绝佳的机会,体验处理如此大规模数据的感觉。Dillard’s 数据存储在 Teradata 数据库中,我们将通过一个名为 Teradata Viewpoint SQL Assistant 的前端界面与之交互。
接下来的两个视频将向你展示如何访问 Jupyter 和 SQL Assistant 界面。在本课程的其余部分,你将使用这些界面来练习将本视频中学到的一般语法结构付诸实践。

本节课中我们一起学习了 SQL 查询的基本语法结构,包括必需和可选的关键字顺序、编写风格的最佳实践、函数的使用、命名规范、零值与空值的区别,以及我们将要用于练习的两个不同数据库环境。掌握这些基础是有效进行数据检索和分析的第一步。
145:Jupyter Notebook 使用指南 📓

概述
在本节课程中,我们将学习如何使用 Jupyter Notebook 这一前端界面。Jupyter 是我们本课程中用来与存储在 MySQL 数据库中的 Dogognition 数据集进行交互的工具。我们将了解其独特功能、基本操作方法以及如何利用它来高效学习和练习 SQL 查询。
Jupyter 简介与课程安排
在上一节视频中,我们介绍了如何编写 SQL 查询。接下来的两个视频,我们将重点介绍 Jupyter。
Jupyter 是本课程中用于与 MySQL 数据库交互的前端界面。在职业生涯中,你可能会遇到多种不同的前端界面。在众多选择中,Jupyter 非常独特,它是为协作而明确设计的,这也使其非常适合教育。
Jupyter 允许我以文本形式解释每一个查询,帮助你理解每个查询背后的逻辑。你可以按照自己的节奏阅读这些文本,在同一个地方尝试查询的不同部分,并同时查看示例。因此,你会发现这是熟悉 SQL 语法的有效方式。
当然,在公司环境中,你不会有我在旁边指导,也无法将我的示例放在手边。因此,我建议你利用这些 Jupyter MySQL 练习来熟练掌握语法。当你准备好独立操作时,再转向 Teradata 练习。
本课程使用的 Teradata 界面与你在公司中使用的非常相似,事实上,在某些公司你可能会使用完全相同的界面。但这要求你能够独立操作,需要从头开始编写查询,并且没有现成的示例。所以,我再次建议你从 MySQL 和 Jupyter 界面开始,当你准备好独立尝试时,再转向 Teradata。

我将在后续视频中展示如何使用 Teradata 界面。但在接下来的两个视频中,我们将专注于 Jupyter。特别是本视频,我们将重点学习如何在 Jupyter 中使用 Notebook。
启动与界面概览
首先,你需要点击课程网站上的链接,直接进入一个 Notebook。
当你点击其中一个链接时,会进入一个页面。进入该页面后,请点击“Open Tool”。
点击后,会打开一个类似这样的界面。本课程的每一课都包含在一个我们称之为“Notebook”的文件中。你可以立即看到 Notebook 中包含大量文本。如果我向下滚动,还会看到许多供你编写代码的区域。
使用这些 Notebook 或完成这些课程的方法是:阅读文本,然后按照说明和问题,在可以编写代码的区域中写入内容。
需要说明的是,Jupyter 中每一个这样的区域都称为一个 Cell。我告诉你这一点,是因为稍后我将展示一些菜单选项的功能,其中一个菜单选项就叫“Cell”,这个菜单选项就是针对这些编写代码的区域的。
代码单元格的使用
为了让你了解实际使用代码单元格时的样子,你需要编写查询并输入。输入后,它看起来会是这样。在左侧,你会看到单词“In”和一些方括号。这是你运行查询之前的样子。当你准备好运行查询时,需要点击上方的这个按钮(箭头图标),悬停时会显示“Run Cell”。
当我按下这个按钮时,你会看到这些括号之间出现一个星号。只要查询正在运行,这个星号就会存在。如果你运行一个需要数据库长时间处理的长查询,这个星号会一直存在,直到输出准备就绪。
这个特定查询会很快完成。当我运行它时,你会很快看到星号,然后紧接着在下方看到输出。让我们看看是什么样子:你看到了星号,然后是输出。
当你运行一个有很多输出的查询时,我想向你展示几件不同的事情。这个特定查询输出了超过 16,000 行。然而,我们已经在这些 Jupyter 界面中实施了一些安全措施,以减少系统崩溃的可能性。
我之前提到过,我们专门设计了本课程,将你们每人大约分成 150 人一组。我们希望你们练习为同事着想。因此,当你编写需要很长时间或大量资源的查询时,也会影响本课程中的同事。当你运行长查询或占用大量资源时,会影响你所在 150 人组中的其他人。
有可能导致你所在 150 人组的系统崩溃,但我们提供了一些安全措施,至少降低了这种可能性。我们在这里做的一件事是,即使输出超过 16000 行,如果你一直滚动到这个输出的底部,你会看到它显示“truncated to display limit of 1000”。我们明确设置了这一点,以便你每次在输出中只获得 1000 行。
我还想再展示一点。如果你的输出中有很多不同的列,你还会在这里看到一个滚动条,可以让你左右滚动。我知道当我第一次使用 Jupyter 时,花了点时间才找到那个滚动条,所以请确保你以后记住这一点。
除此之外,这就是输出的样子。你可以看到上面显示“In”,下面显示“Out”。所以输出总是在这里。
我们在这些练习中运行的许多查询会输出包含大量行的表格。因为有这么多行,Jupyter 和系统需要大量资源来保存这些表格。因此,如果你不需要输出,或者你不会从中学习,或者你不会将其与你正在做的其他事情进行比较,那么删除该输出是个好主意,这样 Jupyter 就不必将其保持在线状态。

要删除输出,请点击你的输出,然后点击我之前指出的“Cell”菜单,转到“Current Outputs”,然后点击“Clear”。现在你可以看到,这个代码单元格的输出已经不存在了。
但我还想在“Cell”菜单中向你展示一个可能对你有用的功能。让我们再次运行查询。现在点击输出,然后首先让我指出,我们可以像我之前展示的那样滚动浏览输出。但现在,请转到“Cell”菜单,转到“Current Outputs”,然后点击“Toggle Scrolling”。

现在你可以看到,输出不再有滚动条,而是显示了整个列表。如果你更喜欢这种查看输出的方式,欢迎你这样做。但我们默认设置为滚动,因为它占用空间更少。
中断查询与内核操作
接下来我想展示的是,如果你启动了一个需要很长时间运行的查询,然后决定不再运行它了,该怎么办。
为此,你可以点击这个按钮。悬停时,它会显示“Interrupt Kernel”。这个按钮基本上就是一个停止按钮。所以,如果你正在运行一个查询,它似乎永远在运行,而你决定你并不真的需要知道答案,并且担心可能会使小组其他人的系统崩溃,那么请点击正在运行的查询,然后按停止。你看到它显示“Interrupt Kernel”了。
另一种方法是,你可以转到这个“Kernel”下拉菜单,然后点击“Interrupt”。
当你停止一个查询时,有时需要一点时间才能停止,所以你需要有点耐心。然后它会输出一个错误信息或告诉你内核被中断,之后你可以重新开始,要么清除输出,要么添加一个新的单元格。
单元格操作:添加、编辑与移动
说到新单元格。你已经看到了使用这些 Notebook 所需知道的大部分内容,但它们实际上比我刚才展示的功能要多得多。




我们无法配置这些 Notebook 来阻止你编辑它们。这有一个好处,就是可以向你展示如何用它来记笔记和彼此分享内容。但这也意味着你有可能编辑这些 Notebook,即使这样做可能对你没有好处。
让我先展示好的部分。想象一下,你想为这个查询做一些笔记。每一个包含代码的区域都称为一个单元格,但这些包含文本的区域也是单元格。如果我点击这个文本,你可以看到这里有一个框包围着文本。所以这实际上也是一个单元格,任何包含文本的单元格都是用所谓的 Markdown 语言 编写的。这是一种非常简单的语言,在许多不同的程序中都有使用,尤其是在网络上用于格式化文本。
所以你可以做的是,实际上可以包含你自己的单元格。你可以自己插入一个包含笔记的单元格。如果你转到“Insert”菜单,你可以选择“Insert Cell Above”或“Below”。我们选择“Insert Cell Above”,你会看到它为你放入了这个单元格。
现在你需要告诉它你想在该单元格中输入什么类型的内容。如果我点击这个单元格,然后看到上面显示“Code”,这意味着这个单元格(就像我点击的这个一样,你看到它仍然显示“Code”)被配置为能够实际编写和执行查询。


另一方面,当我点击这个单元格时,你看到它显示“Markdown”。所以如果我想把我自己的笔记放入这个单元格,我需要转到这个菜单,然后按“Markdown”,现在我就可以输入任何我想要的文本了,并且我可以为以后保存它。
你不需要运行它,但如果你希望它像这里显示的那样格式化,那么你实际上需要运行这个单元格。所以我点击单元格,然后再次按“Run”,现在你可以看到它的格式和这里一样了。
有很多技巧可以用来格式化你的 Markdown 单元格。稍后我会告诉你在哪里可以找到更多相关信息,因为这不是本课程的主要部分,我不想详述细节,但我会展示一些资源,如果你决定使用 Markdown,可以在那里找到所有你需要知道的信息。
一旦你创建了单元格,你可以移动它们。你可以使用这些按钮将单元格上移或下移。


或者你可以使用这个下拉菜单,选择“Cut a cell”。然后你可以转到 Notebook 中的其他地方,在那里粘贴它。你可以选择“Paste Cell Above”、“Below”或“Paste in Place”等选项。请随意尝试这些选项。这将为你提供一种很好的方式,可以保存笔记供以后使用。
当然,这样做的缺点是,即使你不想记笔记,也很容易意外地弄乱我为你制作的这些文本单元格。所以,如果你点击并双击了其中一个文本单元格,这就是你开始编辑其中一个 Markdown 单元格的方式。你会看到它突然变成这样,看起来有点奇怪,这是用 Markdown 语言编写的文本。
如果这种情况发生在你身上,别担心,不要惊慌,你只需要再次按下“Run”按钮,它就会恢复正常。让我再演示一次。如果意外地,你点击了其中一个文本单元格并双击,这给了你编辑文本单元格的机会。如果你不想这样做,再次按下“Run”按钮,它就会看起来像你第一次收到 Notebook 时一样。

保存、检查点与帮助资源
当你与 Notebook 交互时,Jupyter 会自动保存更改。但你也可以自己保存。如果你转到“File”,然后选择“Save and Checkpoint”,这将保存你制作的工作簿,并创建一个所谓的 Checkpoint。
检查点是特定时间点的一个快照,Jupyter 会保存 Notebook 在该时间点的确切样子。这允许你,如果你开始尝试然后搞乱了,或者不喜欢你所做的,你可以转到“File”菜单,选择“Revert to Checkpoint”,它会给你一个你已创建的不同检查点列表,你可以选择其中任何一个,回到你之前的状态。它会给你这个选项,你可以选择恢复或不恢复。正如它告诉你的,如果恢复,则无法撤销。所以,如果你要回到某个检查点,请确保你知道你想这样做。我们按“Cancel”。

在我向你展示下一组关于 Jupyter 的内容之前,有一个非常重要的方面你应该知道,那就是帮助。
Jupyter 有很棒的帮助资源。你应该特别关注两个不同的东西,但也可以随意查看任何其他内容。实际上,有三件事你应该知道。首先,有一个界面导览,我认为你会发现它非常有用,所以我建议你看一下。但你也可以查看“Notebook Help”或“Markdown Documentation”,这两者都非常有用。
如果我们点击“Markdown Help”,它会带你到这个网页,为你提供所有关于如何使用 Markdown 的说明。所以,如果你想开始尝试如何编辑单元格,就应该来这里。
另一个非常有用的东西是“Notebook Help”。这为你提供了各种部分,告诉你所有关于如何运行代码的基础知识。真的,如果你有任何问题,这是你应该去的地方,是找到任何答案的最佳场所。
导出与分享
在我们转到主菜单之前,我想展示的最后一件事是如何保存你的 Notebook,或者打印或导出它们,以便你可以用另一种方式查看,或者与彼此分享。
要做到这一点,请转到“File”菜单并点击。有几个不同的选项供你选择。你可以将你的 Notebook 下载为 iPython Notebook 文件,我稍后会向你展示如何将这些文件上传到你的主目录。这为课程中的你们提供了一种彼此互动的方式,可以互相分享查询和所学内容,这样你就可以像这里一样编写自己的文本,向彼此展示正在进行的查询,然后互相帮助。
另一件你可以做的事是将你的 Notebook 保存为 PDF。一种方法是转到菜单的下载部分,点击“PDF via LaTeX”。但这实际上不是我最喜欢的方式,因为有时 LaTeX 格式非常分散,可能会占用很多页。所以我更喜欢的方式是转到“Print Preview”,这会给你一个类似这样的视图,它会更加紧凑,在你的打印输出中页数更少。一旦你得到这个,你可以转到“File”然后“Print”。下一个屏幕在每个人的电脑上看起来都会不同,因为每个人的配置都不同,你可能使用 Mac 或 PC,所以这会看起来有点不同。但应该总是有一些选项可以打印为 PDF,这样你就可以保存一个文件供以后使用,以便查看你的查询或笔记,或者让你打印出来,以便在学习时查看。

总结
做得好!你现在已经知道如何使用 Jupyter Notebook 了。在下一个视频中,我将向你展示如何使用 Jupyter 账户的主页来创建新的 Notebook、重命名 Notebook 以及彼此分享 Notebook。我们下个视频见。
146:个人 Jupyter 账户操作教程 📓

在本节课程中,我们将学习如何使用 Jupyter 账户的主页界面来创建新笔记本、重命名、重新组织笔记本,以及如何与他人共享笔记本。
访问主目录
上一节我们介绍了 Jupyter 笔记本的编辑界面。本节中,我们来看看如何管理所有笔记本文件。
要从当前笔记本界面返回存放所有笔记本的主目录,请点击左上角的 Jupyter 图标。点击后,页面将跳转到主目录,您会看到本课程提供的所有 12 个笔记本文件都已列出。此外,这里还有一个名为“Restore my notebook”的笔记本,稍后会进行说明。


管理笔记本文件

在主目录界面,您可以对笔记本进行多项操作。以下是可用的主要功能:

- 选择与操作:点击笔记本名称左侧的复选框,会出现几个选项。
- 复制笔记本:选择“Duplicate”可以创建该笔记本的副本。
- 关闭笔记本:选择“Shutdown”可以关闭正在运行的笔记本以节省系统资源。您的工作会自动保存,不会丢失。
- 删除笔记本:选择“Delete”可以永久删除选中的笔记本(请谨慎操作)。
查看与关闭运行中的笔记本
您会注意到,某些笔记本旁边有绿色圆点并标注了“running”,这表示它们当前正处于打开状态。
点击顶部的 “Running” 选项卡,可以查看所有当前打开的笔记本列表。为了节省您自己、同组约150名同学以及杜克大学的系统资源,建议在不使用笔记本时将其关闭。关闭操作会保存您的所有工作,包括输出结果和编写的查询代码。
关闭笔记本最简单的方法就是进入“Running”选项卡,然后点击“Shut down”。您也可以在“Files”选项卡中通过勾选笔记本并选择“Shutdown”来完成此操作。

创建新笔记本
除了使用课程提供的笔记本,您也可以创建自己的笔记本来记录笔记或尝试新内容。
在主目录界面右侧,找到 “New” 按钮。点击后,您可以选择创建文本文件,或者创建一个新的笔记本。若要创建新的可执行代码笔记本,请选择 “Python 3” 选项。


创建后,您可以在新笔记本的顶部更改标题,并根据需要添加新的单元格,将其类型设置为 Markdown 或代码。

共享笔记本文件
“Upload” 按钮为您提供了与同学共享 Jupyter 笔记本的途径。


点击 “Upload” 按钮,系统会打开文件导航窗口。您可以导航到保存笔记本文件的位置,选择文件后点击“Choose”,该笔记本就会被上传并显示在您的主目录中。这为协作学习提供了便利。
恢复笔记本
我们提供了 “Restore my notebook” 这个笔记本,以防您在操作中遇到问题。
如果您对笔记本进行了过多修改,导致查询无法停止运行或系统似乎崩溃,可以使用此功能将所有笔记本恢复到初始状态。请注意,此操作会恢复所有课程笔记本,而不仅仅是其中一个。
打开“Restore my notebook”笔记本,里面会有详细说明。您需要运行其中的特定代码单元格来执行恢复。重要提示:在执行恢复前,如果您想保留之前在任何笔记本上所做的工作,必须重命名那些笔记本,否则它们将被初始版本覆盖。
高级功能:文件夹管理

如果您开始创建大量自己的笔记本,可能会需要用到文件夹来整理。虽然此功能对于不熟悉编程的用户可能有些繁琐,但了解其用法仍有帮助。
在主目录点击 “New”,然后选择 “Folder”,即可创建一个新文件夹。创建后,您可以点击文件夹左侧的复选框,然后选择“Rename”来为其重命名。

若要将一个笔记本移入文件夹,操作稍显复杂。您需要重命名该笔记本,并在新名称前加上文件夹名称和反斜杠。例如,要将笔记本“my_notebook.ipynb”移入名为“practice”的文件夹,新名称应设置为 practice/my_notebook.ipynb。


操作完成后,该笔记本会从主目录消失。点击进入相应的文件夹,即可看到它。要返回主目录,点击页面左上角的 小房子图标 即可。
关于重命名的重要提醒
最后需要了解的是,如果您决定重命名课程提供的原始笔记本文件,将会产生一个影响:


Coursera 课程网站上的链接分为两种:一种是直接跳转到特定课程或笔记本的链接;另一种是跳转到您 Jupyter 主页的链接。
如果您更改了某个课程笔记本的名称,那么直接跳转到该特定课程的链接将不再有效。不过,您仍然可以使用跳转到主页的链接,然后从主目录手动找到并打开重命名后的笔记本。如果您因某些原因需要重命名课程笔记本,请务必记住这一点。
总结

本节课中,我们一起学习了 Jupyter 账户主页的核心操作:包括访问和管理主目录、创建与共享笔记本、使用恢复功能以及进行文件夹管理。您现在已掌握了在本课程中使用 Jupyter 所需了解的全部基础知识。
下一步,请前往课程材料,点击链接开始学习“my_SQL_Ex1:查看数据”。当您准备好学习如何使用 Teradata 时,我们下一节视频再见。祝学习顺利,探索愉快!😊
147:您已进阶为更专业的业务分析师
在本节课中,我们将回顾本周的学习成果,并展望下一阶段的学习内容。我们将总结已掌握的SQL核心技能,并了解如何通过实践巩固这些知识,为成为更专业的业务分析师打下坚实基础。

本周成果总结
本周大家表现非常出色。希望你们在探索数据集的过程中有所收获。
请记住,要想真正熟练掌握SQL,并能在自己的商业场景中灵活运用,唯一的途径就是不断练习。
核心实践建议
以下是巩固本周所学知识的两个关键实践途径:
- 分析Omniition MySQL数据集:请务必完成相关的Jupyter Notebook练习。
- 处理Diluge数据集:通过Terraadaative Viewpoint Scpad练习来帮助您深入理解。
您已取得的优势
仅凭本周所学,您已经比那些完全不会使用SQL的分析师拥有了显著优势。
与课程开始时不同,您现在有能力探索数据库中存储的所有信息,甚至可以从特定数据表中导出所需数据。
下周学习展望
下一周,您将向成为SQL高手迈出下一步。
我们将学习如何进行数据计算,如何在单个查询中将数据分割成不同的组,以及如何对查询中定义的每个组进行独立的计算。
这将是一次充满乐趣的学习旅程。
本周结语
在此之前,我想与大家分享本周的一个临别赠言。


本节课总结:本节课我们一起回顾了本周在SQL学习上取得的进展,强调了实践(如完成Jupyter Notebook和Scpad练习)对于巩固技能的重要性。我们认识到,目前已具备探索和导出数据库数据的能力,这带来了显著的专业优势。最后,我们预览了下周将学习的数据计算、分组与聚合等更高级的SQL技术。
148:欢迎进入第三周学习 📊

概述
在本节课中,我们将要学习 SQL 的核心技能:数据聚合与多表连接。你将掌握如何对整列数据进行汇总,并按特定条件分组,以及如何从多个表中组合信息。这些技能是数据分析师工作的基石。
上周回顾与本周展望
上一周我们介绍了如何定位、描述数据库中的数据,以及如何导出数据进行分析。这使你比那些不懂如何与数据库交互的分析师拥有了显著优势。
本节中我们来看看如何将你的技能提升到新的水平。你将学习如何汇总整列数据,并根据列中的值对这些汇总结果进行分组。你还将学习如何从多个表中组合信息。
本周所学的内容将构成你作为数据分析师所做一切工作的基础。这些查询工具将使你能够将数据操作成你感兴趣的任何类别或细分市场。


对于那些在此之前学习过 Tableau 课程的同学,你将基本上学习如何使用 SQL 来实现与在 Tableau 中将变量拖放到列或行上相同的计算。
数据汇总方法
有多种方法可以汇总数据。以下是一些最常见的方法:
- 计数:统计一组行中的观测值数量。
- 求和:将一组行中的所有值相加。
- 平均值:计算一组行中所有值的平均值。
- 最大值:报告一组行中的最大值。
这些汇总方法都以某种方式聚合你的数据。相应地,术语 COUNT、SUM、AVG 和 MAX 在 SQL 中都被称为聚合函数。
聚合函数本身非常直观易懂,因为我们习惯于进行这类计算。
聚合函数的挑战性用例
本周你将练习聚合函数一个稍具挑战性的用例,即当你必须组合需要以不同方式进行聚合的列时。
这个用例具有挑战性的原因之一是你必须记住为你想要包含在输出中的每一列使用适当的聚合函数。
例如,假设你经营一家专业相机店,你感兴趣的是每位员工完成了多少销售额,以及顾客对每位员工服务的满意度如何。
当组合适当的表格后,用于解决这些问题的数据包含以下列:员工姓名、每笔销售额、以及顾客在员工完成每笔销售后给出的满意度评分。
要按员工汇总这些列中的数据,你必须分离出与给定员工相关的所有行,然后以某种方式汇总其他各列中的值。
在 SQL 查询中实现分组聚合
要在 SQL 查询中实现这一点,你必须使用上周学到的 SELECT 和 FROM 子句,明确告诉数据库你感兴趣的是来自哪个(些)表的哪些数据列。
此外,你还必须使用 GROUP BY 语句告诉数据库如何按员工对行进行分组。
需要记住的重要一点是,你必须明确告诉数据库如何分别汇总每一列的行,并且必须为每一列使用正确的聚合函数。例如,我们想要统计或汇总每位员工在销售额列中的所有值,但我们想要平均顾客评分列中的所有值。
我们必须分别并在适当的位置输入这些函数。
SQL 分析与 Excel 分析的差异
请记住,使用 SQL(或 Tableau)进行分析与在 Excel 中进行分析有些不同,因为你的所有 SQL 结果都是作为表格导出的,而不是工作表,因此它们必须符合表格格式。
实际上,这意味着你表格中的每一行都必须使用相同的聚合级别。如何做到这一点并不总是直观的,尤其是当你想根据不同的组来划分结果时。
为了感受这一点,假设你仍然对员工的销售数量和顾客满意度评分感兴趣,但现在你还想知道员工的性别是否以及如何与这些绩效指标相关。
你的数据拥有与之前相同的列,但现在还多了一个性别列。
当你按员工编号对行进行分组时,你仍然可以统计销售额列中的条目数量,并平均评分列中的顾客评分。
但是,你会如何汇总性别列中的性别信息,以便每位员工只有一个性别值呢?
处理非数值数据的聚合挑战
鉴于“女性”和“男性”是词语而非数字,没有合适的聚合函数来处理这种情况。在大多数数据库系统中,任何试图在此列上使用除 COUNT 之外的聚合函数的查询都会崩溃。但 COUNT 函数对你解决问题没有帮助,因为你不想统计行数,而是想知道员工是男性还是女性。
到本周末,你将了解一些可以重新设计查询以处理此类情况的方法,下周我们还将学习更多策略。
关于 MySQL 的特殊说明
我需要提醒你,特别是如果你习惯于在 Excel 中分析所有数据,可能需要一些时间来适应你必须使用的策略。我还要提到,MySQL 处理这些不匹配聚合级别的方式与其他数据库系统略有不同,这种现象会带来一系列问题,你将在本周的 MySQL 专项练习中了解更多。
本周另一项核心技能:合并表格
在你学会如何将数据汇总分组之后,本周要学习的下一个重要内容是如何合并表格。
合并表格是关系型数据库之所以有用的精髓所在。一旦你知道如何操作,它将解锁各种分析可能性。
我非常高兴能帮助你将 SQL 技能提升到新的水平。享受练习吧,在你练习编写聚合函数之后,我会与你联系并提供一些额外建议。然后在本周晚些时候,当我为你提供更多关于连接如何工作的背景知识时,我们会再次见面。
总结


本节课中我们一起学习了 SQL 数据聚合的核心概念,包括 COUNT、SUM、AVG、MAX 等聚合函数,以及如何使用 GROUP BY 进行分组。我们还探讨了当需要组合以不同方式聚合的列,或处理非数值数据(如性别)时所面临的挑战。最后,我们预告了本周另一项关键技能——多表连接,并指出了 MySQL 在处理聚合时的一些特性。掌握这些技能将为后续复杂的数据分析打下坚实基础。
149:避免错误的编程习惯养成

在本节课中,我们将探讨如何培养良好的编程习惯,以确保数据分析的准确性和价值。我们将学习为什么在掌握SQL语法细节的同时,必须保持对数据质量的警惕,并介绍一些实用的习惯来帮助我们发现和纠正错误。
课程概述
到目前为止,您应该已经开始熟悉SQL语法,并对分析师常用的查询有了一定的了解。然而,在深入技术细节之前,理解SQL查询在数据分析师工作中的定位至关重要。本课程的目标不仅是教会您编写查询,更是帮助您成为能够从数据中创造商业价值的分析师。
培养更广阔的视角
上一节我们介绍了SQL查询的重要性,本节中我们来看看如何将技术技能置于更广阔的商业背景中。
我们开设这门专项课程,旨在培养能够从数据中创造价值的商业分析师。在本专项的第四门课程中,我们专注于学习如何编写SQL查询,并非因为关系数据库本身有趣,而是因为编写SQL查询是帮助您创造商业价值的技能之一。
学习编写SQL查询的技术规则非常重要,这也是本课程存在的意义。在学习过程中专注于这些规则是好的,但在钻研细节时,请尝试记住更广阔的视角。
即使您写出了完美的SQL查询,除非您提出的问题有意义且对结果的解读正确,否则查询的输出也无法创造商业价值。思考这个最终目标,或许能给您带来关注细节的动力,这些细节决定了您的查询是否能真正给出您想要的结果。
确保分析提供可操作的洞察
从更广阔的视角思考,一个能为公司提供切实价值的数据分析项目,必须能够洞察那些公司有能力且有意愿改进的业务流程。
从事此类项目的数据分析师需要始终思考以下问题:
- 什么问题能提供可操作的洞察?
- 我的问题的答案重要吗?
- 我的问题的答案正确吗?
我们将在本课程的最后一周回到前两个问题,但现在,在我们开始编写查询时,就可以开始思考最后一个问题。
现实世界的数据集是混乱且复杂的。如果您不注意,就可能忽略这些混乱,从而得出错误的结论。您在上一个MySQL练习中已经看到了混乱数据的例子。如果您没有探索认知数据集中exam_answers表的原始时间戳,您的反应时间汇总中可能就包含了一些非常错误的数据。
那么,如何在提出商业建议之前确保发现数据中的这些错误呢?
建立发现错误的数据直觉
答案是,从现在开始培养习惯,使您能够捕捉到分析中可能出错的哪怕最微小的迹象。以下是来自知名公司Airbnb的数据科学经理Eleanor Grraywell关于这些习惯的看法:
“我认为,对数据质量保持一种近乎偏执的专注,实际上是防止错误的最大方法之一。我将其视为培养一种数据直觉——一种感觉事情不太对劲的感知力。这当然来自经验,当您对所查看的数据非常熟悉时,您可以说‘等等,我知道平均百分比是这个,为什么在我的表中不一样?肯定有问题。’这对于帮助防止错误绝对非常重要。”
在“使用Tableau进行数据可视化与沟通”课程中,我给出了成为数据分析师的10个建议。其中两个建议涉及培养帮助您发现错误的习惯。
我的第一个建议是:养成对数据持怀疑态度的习惯,或者如我所说,锻炼您的怀疑精神。以下是我的描述:
“根据我的经验告诉您,每当您在数据中看到一个非常戏剧性或令人惊讶的效果,而您的团队或公司中没有人预料到时,十有八九(甚至可能是百分之九十九)是由于簿记或编码错误。很可能您的代码中存在错误,电子表格中的列未对齐,或者数据集中的某个地方标签不正确。同样,每当有人极其自信地告诉您某件事时,请降低您的期望。实际情况可能比他们描述的更复杂和混乱。”
我也曾建议您:寻求细节,不要只看数据的表面价值,要热衷于弄清楚您的数据真实面貌。

在实践中应用建议
现在,将Eleanor和我的建议付诸实践的方法是:在练习编写查询时,挑战自己思考不同的方式来确保您的结果和解读是正确的。
在开始强力解读计算和聚合函数之前,务必先用眼睛查看数据的子集和查询输出。一旦您对查询语法足够熟悉,就开始查看您能接触到的cognition数据的每一个方面,以感受它们的样子。

带着“这些数据如何被用来回答Doian的业务问题”的眼光去审视它们。总的来说,您正在尝试培养一种对为业务问题找到正确答案的永不满足的渴望。
如果您以获得正确答案为动力,您将更有可能有动力去发现查询中可能影响分析结论的错误。因此,每当您对SQL查询感到沮丧,或因所处理数据的混乱而气馁时,请记住更广阔的视角:您正在为您的企业创造它甚至不知道存在的全新价值。这非常令人兴奋,也值得把它做对。
所以,请关注细节,并准备好征服数据或查询中出现的任何错误。
课程总结

本节课中我们一起学习了培养良好编程习惯的重要性。我们认识到,技术技能必须与对数据质量的持续警惕相结合。通过培养数据直觉、对数据保持怀疑、深入探究细节,并始终将查询置于更广阔的商业价值创造背景中,我们可以有效地避免错误,确保我们的分析准确、可靠,并能真正为业务决策提供支持。记住,关注细节并准备好应对挑战,是成为优秀数据分析师的关键。
150:连接查询基础概念 🧩

在本节课中,我们将学习关系型数据库中一个核心且强大的功能:连接(Joins)。我们将探讨连接查询的基本概念、不同类型及其工作原理,为后续处理更复杂的数据关系打下坚实基础。
概述
关系型数据库通过将大型数据集分解为具有统一主题的较小数据表来工作。这种策略有效的前提是,当我们需要时,能够将这些表重新组合起来。连接(Joins) 正是实现这一目标的 SQL 命令类别。理解连接的关键在于掌握关系数据库的构建方式以及集合论中的笛卡尔积概念。
连接要解决的问题
为了理解连接的作用,让我们先看看它旨在解决什么问题。
回顾我们为“Egggarers 烘焙咖啡大赛”数据库创建的表。我们聚焦于其中两个表:orders(订单表)和 distribution_center(配送中心表)。为了从 orders 表中获取任何关于商品配送中心的信息,我们必须通过匹配 distribution_location_id(配送位置ID),将 orders 表的每一行数据链接到 distribution_center 表的相应行。
之前我们讨论了链接表作为组织数据库的一般概念,现在我们需要思考数据库实际建立这种链接的细节。
连接的基本策略:从低效到高效


一种可能首先想到的策略是,数据库可以逐行遍历 orders 表的 distribution_center_id 列,并询问:“这是哪个配送中心ID?是 DL1 吗?好的,那么它就与 distribution_center 表中 DL1 行的所有数据匹配。”
你可以在 Excel 中使用 VLOOKUP 函数实现此策略,如果数据集不大,它会工作得很好。
=VLOOKUP(lookup_value, table_array, col_index_num, [range_lookup])
但是,如果你必须将 VLOOKUP 函数复制到分布在多个 Excel 工作表中的 1 亿行呢?即使你是 Excel 专家,仅将公式粘贴到所有合适的单元格也需要不少时间。
虽然计算机在此类操作上比人类快得多,但对于数据库而言,类似的概念仍然成立:让数据库查找信息的操作,相比其他类型的数学运算,总是相对较慢。数据库需要查找信息的次数越多,或者需要搜索的信息池越广,数据库查询的速度就越慢。因此,逐行策略效率低下。
集合论与笛卡尔积的引入
那么,有没有其他策略呢?这时,集合论 来解围了。集合论中组合两个集合的理论方法是通过 乘法,产生所谓的 笛卡尔积(Cartesian Product) 或 叉积(Cross Product)。对于集合,乘法并不意味着数值相乘。笛卡尔积是一个包含两个表中所有可能项目对的集合。
如果这是我们的订单表(集合 A),那是我们的配送中心表(集合 B),那么这就是两个集合的笛卡尔积(A × B)。
数据库组合表的方式是:首先,根据你在查询中指定的条件,过滤你用来链接表的列。然后,它生成这些过滤后列的笛卡尔积。最后,附加你在查询中要求的任何其他列。
因此,在查询中连接表以获取所需数据的方法是:指定 “我只想要在唯一ID列中具有相同ID的行的笛卡尔积”。
你需要了解笛卡尔积,因为有时当你连接具有重复行或存在多对多关系的列的表时,会得到意外的输出。只有记住 “连接以笛卡尔积为基础” 这一基本概念,这些输出才有意义。
四种基本连接类型
我们将逐步理解这些复杂情况,但让我们先从理想情况开始思考连接:没有重复行,并且一个表中的每一行只与另一个表中的一行相连。
假设你有以下两个通过部门ID D 链接的表。你至少有四种不同的方式可以组合这些表。
内连接(INNER JOIN)
第一种情况是,如果你想找出所有在当前部门工作的员工。在这种情况下,你需要一个所有员工行的列表,这些员工行在部门表的唯一列中具有匹配的部门ID。
这种连接类型,只有当一行在其链接列中的值同时出现在两个表的唯一列中时,该行才会被包含在结果中,称为 内连接(Inner Join)。
以下是这两个表内连接的结果:

由于部门表中没有部门ID 4或5,并且员工表中没有部门ID 3,因此员工“Jessica”、“Daisy”和“家具”部门将被排除在结果之外。

同时注意,员工“Brian”和“化妆品”部门也从结果中删除,因为 NULL 值永远不能用于在连接中链接行。NULL 值不会链接到其他任何值,它们直接被排除。
左外连接(LEFT OUTER JOIN)
如果你想要所有员工及其部门的列表,无论该员工的部门是否在当前部门表中,该怎么办?在这种情况下,你可以使用 外连接(Outer Join)。当你编写外连接时,在查询中输入表的顺序很重要。连接的名称定义了哪个表的所有值将被包含。
假设我们在查询中先输入 employee 表,后输入 department 表。在这种情况下,这两个表的 左外连接(Left Outer Join) 结果将是:左侧表(员工表)的所有值都被包含。右侧表的值只有在其链接列中的值与左侧表的链接列匹配时才会被包含。
以下是对我们的表进行左连接的结果:
你可以看到,我们所有的员工都包含在输出中,但包含的部门仅限于那些在部门ID列中有匹配值的部门。
注意,每当员工表中有一行的部门ID在部门表中没有匹配项时,部门信息就列为 NULL。这次,员工表中具有 NULL 值的行被包含在输出表中,因为没有要求它必须与另一列中的值匹配。
右外连接(RIGHT OUTER JOIN)
你也可以检索所有当前部门及其匹配员工的列表,无论员工表中是否有员工指向部门表中的某个部门。
如果我们再次在查询中先包含 employee 表,后包含 department 表,我们可以使用 右外连接(Right Outer Join) 来获取此列表。在右连接中,右侧表的所有结果都被包含。左侧表的值只有在其链接列中的值与右侧表的链接列匹配时才会被包含。
因此,结果将如下所示:
这次,所有部门行都包含在输出中。然而,“家具”行在员工表中有 NULL 值,因为员工表的部门ID列中没有任何地方列出部门ID 3。
部门表中部门ID为 NULL 的数据行被包含在输出中。另一方面,员工表中那些部门ID未出现在部门表中的数据行被排除。
此时你可能会想:等等,如果我运行一个左连接但反转查询中表的输入顺序,难道不能得到相同的结果吗?答案是:是的,完全可以。


左外连接和右外连接是相当冗余的,它们只是为你编写查询提供了灵活性。以此顺序编写表的左外连接,与以相反顺序编写表的右外连接,会得到相同的结果。
全外连接(FULL OUTER JOIN)
还有一种我们尚未讨论的连接类型:全外连接(Full Outer Join)。
全外连接会给出列在任一表中的所有员工和部门,无论它们是否与另一表中的值匹配。
如果你只是想提取所有符合某个条件的数据,以便在分析中检查每一份原始数据,你可能会使用这种连接。我们两个表之间的全外连接结果将如下所示:
你可以看到所有行都被包含,并且每当有一行在部门ID列中没有匹配值时,就会输入 NULL 值。
需要知道的一个重要点是:并非所有数据库管理系统都支持全外连接。特别是,MySQL 不支持全外连接,而 Teradata 支持。并非所有数据库管理系统都支持全外连接这一事实,也让你感受到它们的使用频率有多低。
总结
本节课我们一起学习了 SQL 连接查询的基础概念。我们了解到,连接是关系型数据库组合分散数据表的核心工具,其理论基础是集合论的笛卡尔积。
我们详细探讨了四种基本连接类型:
- 内连接(INNER JOIN):仅返回两个表中匹配的行。
- 左外连接(LEFT OUTER JOIN):返回左表所有行,以及右表中匹配的行。
- 右外连接(RIGHT OUTER JOIN):返回右表所有行,以及左表中匹配的行(功能上与调整表顺序的左连接等效)。
- 全外连接(FULL OUTER JOIN):返回两个表中所有行,无论是否匹配(并非所有数据库都支持)。

到目前为止,我们只查看了在链接列中每个值仅有一个匹配项的表上应用连接的结果。当你对外连接应用于关系基数大于一的表,或者表中存在重复行时,结果会变得稍微复杂一些。在接下来的视频中,我们将一起探讨其原因。
151:多对多关系与重复数据的连接处理

在本节课中,我们将深入探讨数据库连接操作中的两个重要概念:多对多关系的连接处理,以及当表中存在重复数据时连接操作可能带来的复杂情况。理解这些概念对于准确分析数据至关重要。
连接类型回顾
上一节我们介绍了连接的基本类型,这些概念总结在下图中。

- 内连接 保留两个表中所有共有的行,不包括空值。
- 左连接 保留左表中的所有行(包括空值),并且只包含右表中匹配的信息。
- 右连接 保留右表中的所有行(包括空值),并且只包含左表中匹配的信息。
- 全外连接 包含两个表中的所有行,并在可能的情况下进行匹配(MySQL 不支持全外连接)。
这些概念都是准确的,这张图也是教科书或网络上常见的优秀参考。但是,如果你忘记了笛卡尔积的概念,这张图可能会产生一些误导。当你开始处理最大基数约束大于一的关系时,你就会明白原因。
多对多关系对连接结果的影响
例如,上图给人的印象是所有内连接的结果表都会比输入表小。然而,如果你的一个表中的值可以关联到另一个表中的多个值,情况往往并非如此。
为了理解这是如何发生的,让我们逐步分析一个例子。
让我们再次连接员工表和部门表,但这次,每个员工可以属于多个部门,每个部门也可以拥有多名员工。
回顾课程第一周的内容,为了将具有多对多关系的实体放入关系型数据库,你总是需要一个链接表,该表包含指向你最终想要链接的表的外键。
因此,在这种情况下,我们需要连接三个表才能最终合并员工和部门信息。
当你连接多个表时,需要一次连接两个表,然后将每次连接的结果与后续的表进行连接。因此,要将员工表中的信息与部门表中的信息连接起来,首先必须将员工表与分配表连接起来。
当我们执行这个连接时,只要员工ID匹配,数据库就会生成两个表之间所有可能的行组合,即笛卡尔积。

在这种情况下,有时会有多个分配行具有相同的员工ID,因此连接操作将输出每个具有相同员工ID号的员工行和分配行的组合。结果,内连接将输出八行,即使员工表只有五行,并且有一个未被包含的空值。

当我们连接第一次连接的结果与部门表时,最初的八行中有六行将被保留,因为这六行在部门表中都有匹配的部门ID。所以最终,我们的内连接结果比我们正在连接的任何单个表都拥有更多的行。


请记住,每次你查看这张略有误导性但仍非常有用的参考图时,这种情况都可能发生。


混合使用不同连接类型的注意事项
这张图难以体现的连接操作的另一个方面,是当你使用不同类型的连接来连接多个表时会发生什么,这通常意味着你可能会意外地混合使用不同类型的连接。
为了说明这一点,让我们再次链接员工表和部门表。但这次,我们希望使用左连接,因为我们想要一个所有员工的完整列表,无论他们是否被分配到某个部门。


你可以看到,这次我们第一次连接的结果有九行,因为包含了员工表第5行中的空值。到目前为止一切顺利。如果我们然后使用另一个左连接将第一次连接的结果与部门表连接起来,我们将在输出中保留所有九行,其中三行在部门列中将没有值。
但是,如果我们在第二个连接语句中忘记了 LEFT 这个词,从而意外地计算了第一次连接结果与部门表之间的内连接呢?
现在,我们的九行中将有四行被移除,因为它们没有出现在部门表中的部门ID。如果你有一个非常大的数据集,并且是对连接结果进行聚合而不是单独查看连接输出的每一行,查询当然可以运行,但你的结果将不是你想象的那样,而且可能很难注意到你犯了错误。
有时,在组合表时,你确实有意想要改变连接类型,所以我不希望你认为必须始终使用相同的连接类型。相反,我只是希望你记住,运行连接的顺序很重要,因此你需要确保在查询的正确位置,对正确的表对应用正确类型的连接。
处理含有重复行的表连接
关于连接,还有一件事需要记住,那就是当你连接含有重复行的表时会发生什么。
连接操作会将重复行保留在输出表中,因为连接概念本身没有移除它们的机制。因此,这两个表的左连接结果将如下所示:员工表中的重复行会被传递到连接结果中。
但由于笛卡尔积的存在,当你连接两个不仅包含重复行,而且具有多对多关系的表时,情况会变得有些棘手。本质上,你的重复行会被成倍增加。
让我们回到员工表、分配表和部门表的连接。现在,员工表中有一对重复行,部门表中也有一对重复行。
当我们首先对员工表和分配表进行内连接时,每个重复行都会被链接表中所有具有相同员工ID的行相乘,因此输出将为你提供链接表中每个具有员工ID D 的行的副本。
但这甚至变得更复杂。当我们将第一次连接的结果与部门表进行内连接时,每个部门ID为 1 的行都会被复制,所以最终结果将如下所示。你可以看到,我们从拥有员工Daisy的两行数据,变成了拥有员工Daisy的六行数据,尽管其中只有两行代表真实的记录。




这就是连接重复行时可能发生的情况。你可以想象,如果你连接大量重复行,这种倍增效应会变得多么失控。事实上,我们将在我们的Dotion数据集中看到一个这样的例子。
处理重复数据的建议
现在你已经看到了处理混乱数据集时可能发生的各种情况,你或许能理解数据库人员为什么希望对数据库设计和实际数据库使用不同的术语。
基于集合论的数据库设计假设没有重复行。但在现实生活中,存在重复行,并且处理它们可能非常具有挑战性。因此,使用区分理论与现实生活的术语是有用的。
关于如何处理这些重复行,以下是一些良好的实践建议。
首先,在进行分析之前,尽可能清理数据并消除尽可能多的重复行是一个好主意。但有时这不切实际或不可能。
因此,你应该养成一个习惯:在将一个查询中链接多个连接之前,先查看你将要连接的每一对表所输出的少量测试行。逐步确保你将要运行的每个独立连接,在你开始聚合连接结果或进行任何其他复杂操作之前,都能给出你期望的结果。这也有助于确保你不会在特定步骤中输入错误的连接类型。
在分析开始时花时间仔细检查查询的每个部分,可以避免你日后因误解那些你并不知道是错误的结论而陷入大量麻烦。因此,我强烈推荐这个习惯。它将确保你掌控你的连接操作,而不是让它们控制你。
总结
本节课中我们一起学习了多对多关系如何通过链接表和笛卡尔积影响连接结果的行数,理解了混合使用不同连接类型时需要特别注意顺序和类型,并探讨了表中存在重复数据时,连接操作可能导致数据被意外倍增的复杂情况。最后,我们强调了在分析前清理数据、逐步测试每个连接结果的重要性。掌握了这些知识,你就可以开始连接一些表了。享受这个过程,并且别忘了笛卡尔积。


152:关于连接示例的重要说明 🔗

在本节中,我们将探讨一个在数据库连接操作中至关重要的概念:如何处理现实数据中可能存在的非标准情况,例如空值和重复行。理解这些情况将帮助你更好地应对实际工作中的数据分析挑战。
上一节我们介绍了表连接的基本类型和操作。本节中,我们来看看一个在使用连接时必须注意的关键问题。

我想在你们继续深入学习之前说明一点。我需要在你们开始进行表连接操作之前告知一些重要信息。
我展示的过去两个视频中的一些示例,以及本课程后续将使用的一些示例,并非标准情况。例如,你在标准的SQL教科书中不会看到它们。这些示例的非标准之处在于,我展示了在本应用来连接表的列中存在空值(NULL)和重复行的情况。
理论上,这应该是不可能的,并且这无疑违反了集合论等概念,该理论指出不应存在任何重复行。此外,如果你在数据库中将一个列声明为主键,它通常会阻止你拥有任何重复行,并且阻止出现任何空值。
那么,我为什么要使用这些示例呢?我使用这些示例是因为这正是现实生活中可能发生的情况。
以下是现实数据中可能出现非标准情况的几个原因:
- 业务优先于完美: 有时,公司需要以比构建完美数据库更快的速度收集数据。有时,拥有一些不完美的数据比完全没有数据更重要。这在初创公司中尤其常见。
- 规避风险: 有时,他们不愿意将某个列声明为主键,因为他们不能冒完全收集不到数据的风险。在公司早期阶段,他们需要确保手头有一些数据。
- 问题修复的延迟: 当这种情况发生时,他们通常会修复问题,但由于坏数据量很少,没有立即修复数据库的紧迫性,他们还有其他事情需要担心。
我希望确保你知道如何处理这些类型的情况。例如,在我们的“Doognition”数据中,看起来在最初测试阶段可能存在一些问题,因此一些空值和一些重复行因为未将列声明为主键而混入。这只是数据库中非常小的一部分,通常不会影响你的分析。
然而,它会影响分析的情况是在这些边缘案例中,当你执行那些最终会受到这些重复行和空值影响的外连接时,因为它们具有乘数效应。
作为一名数据分析师,你的工作不是创建一个完美的数据库。事实上,你通常首先就不是在创建数据库。你的工作是从公司存储在任何类型数据库中的任何数据中创造价值。
我希望确保你能做到这一点。这就是为什么我没有清理“Do”数据集使其看起来像教科书一样完美。我没有删除空值,也没有删除重复行。如果你是该公司的分析师并且有时间,你可能想这样做。但我希望确保你知道如何处理它。
通过学习如何处理这些边缘案例,我相信这将帮助你真正理解连接的工作原理,从而使你在处理数据看起来完美无瑕、没有任何问题的标准场景时更加得心应手。
本节课中我们一起学习了为何在实际数据分析中会遇到包含空值和重复行的非标准数据,以及理解这些情况对于掌握表连接操作的本质至关重要。希望你能享受使用真实数据而非教科书数据的机会。现在,去成为连接大师吧。
153:实现数据即时检索的技术方案

在本节课中,我们将学习如何利用已掌握的工具,从数据库中即时检索所需数据,实现跨多表的细分分析,从而摆脱对他人的依赖。
概述
你已经学会了运行细分分析所需的工具,这些分析能够同时整合来自多个数据表的信息。至此,你不再需要他人帮助即可从数据库中检索所需数据,也无需再等待公司其他同事花费数天甚至一周的时间为你提供数据。
核心技术与能力
以下是实现数据即时检索所依赖的核心技术:
- 多表关联分析:通过SQL的
JOIN语句,将不同数据表中的信息基于共同字段连接起来,进行综合分析。 - 自主数据查询:掌握编写SQL查询语句的能力,直接与数据库交互,按需获取数据。
- 效率提升:将数据获取周期从“天/周”缩短到“即时”,加速分析决策流程。
进阶学习预告
下一周,你将学习更多工具,以进一步完善你的分析。为了激励你,这里有一个小故事,作为对你本周辛勤工作的奖励。
一个非常有礼貌的SQL查询走进一家酒吧,看到酒吧一角有两张桌子。这个非常有礼貌的SQL查询走到桌子前问道:“请问我可以
JOIN你们吗?”
总结

本节课中,我们一起学习了如何运用SQL技能独立进行跨表数据检索与分析。关键点在于掌握JOIN等语句实现多表关联,从而获得数据自主权,显著提升工作效率。故事中的双关语“JOIN”巧妙地总结了关联查询的核心概念。
154:欢迎进入第四周学习 🎉

在本节课中,我们将要学习如何运用 MySQL 和 Teradata 来管理大数据。这是本课程的最后一个学习周。
你已经出色地完成了所有教你如何编写 SQL 查询的练习。本周,我们将学习几个额外的工具,它们能让你更轻松地编写出提取特定数据的查询。
子查询介绍
上一节我们介绍了本周的学习目标,本节中我们来看看第一个核心工具:子查询。
子查询,也称为内部查询或嵌套查询,是一种将整体查询中的操作分解为独立步骤的机制。通过这种方式,子查询帮助我们解决了在使用聚合函数和连接时遇到的许多问题,有时还能为我们提供更优雅的方式来表达集合查询背后的逻辑。
以下是关于子查询的两个关键技巧:
- 格式化技巧:第一个技巧是确保正确格式化子查询,以便清晰地看出查询的哪些部分将一起执行。
- 执行顺序:第二个技巧是从最内层的查询开始编写和解释子查询,然后逐步向外层推进。
完成本周的第一个练习后,你就会明白其工作原理。
逻辑函数与问题转化

在学习了子查询之后,我们将了解一些在商业数据分析中可能用到的其他逻辑函数。
然后,在本周作业的最后阶段,我们将讨论如何将你的分析目标转化为可以通过查询来解决的问题。为了实现这些目标,你首先需要找出正确的问题,并制定一个计划,思考如何高效地回答这些问题。

以下是 Elliot Cohen 再次为我们分享他关于分析过程中这一部分重要性的看法:
我们发现最重要的一点是,你必须带着问题进入每一次测试。你需要有一个假设,并且需要确切知道你将如何测试它。因为如果你只是进去看看,你可能会发现一些无关紧要的东西(这毫无用处),或者你什么也发现不了(这同样毫无用处)。所以,我认为唯一真正重要的事情是,在开始之前找到一个可测试的假设。
我们将讨论一些资源,你可以利用它们来基于特定的假设和问题设计分析计划。然后,我们将使用为 Doian 项目创建的分析计划,来练习将商业问题转化为 SQL 查询。
实践与应用
我们将要询问的许多关于 Doian 用户的问题,与 Boxox 公司的商业分析师询问其用户的问题非常相似。以下是 Ryan Lucki 的再次分享:
是的,我们的商业分析师使用 SQL 来查询我们拥有的关于用户如何使用 B 的数据,包括使用模式,例如我们的用户有多活跃、我们有多少 30 天活跃用户或 7 天活跃用户、他们每周上传多少内容、他们主要在平日还是周末活跃(基于其地区设置)。他们进行何种协作?免费层用户与商业或企业级用户的运营方式有何不同?
在本周你将完成的练习中,你将处理与这些问题非常相似的问题。
我认为学习 SQL 最难的部分之一,就是弄清楚如何将你用来描述希望实现的分析结果的语言,转化为屏幕上实际的 SQL 查询语言。做到这一点的最佳方法是通过练习编写专门设计用于帮助你分析和解释眼前数据的查询。
因此,你将开始这种练习,使用与我们 Dognition 分析计划相关的查询,并逐步完成。然后,你将使用 Dillers 数据集回答许多类似的查询。本质上,我们将不断练习、练习、再练习。到最后,你将充满信心地宣称自己知道如何编写 SQL 查询来创造商业价值。

让我们开始吧!
155:从制定分析计划开始 📋

在本节课中,我们将要学习为何在开始数据分析项目前,制定一个结构化的分析计划至关重要。我们将探讨缺乏计划的潜在风险,并介绍一种有效的计划方法。
恭喜你完成了所有的 SQL 课程学习。你应该为自己感到自豪。你现在已经学会了检索数据所需的一切知识,这些数据将帮助你开始研究如何提高 Dian 公司的测试完成率,这正是 Dian 公司希望我们帮助解决的商业问题。
你已经准备好开始我们的分析了。但还不行。我很高兴你渴望投入分析,相信我,我也非常兴奋能分析这个数据集。但你需要思考以下问题。
作为一名商业分析师,你的工作不仅仅是做一些令人兴奋的事情。你的工作是明确企业究竟应该采取什么行动来解决问题。换句话说,是创造价值。更重要的是,要以尽可能快速高效的方式完成,并且最好能让你的项目投资者或利益相关者了解你的进展。
我将根据多年的数据分析经验给你一条建议,我在本专项课程中的“使用 Tableau 进行数据可视化与沟通”课程中也多次谈到这一点。
不要在没有结构化分析计划的情况下进入数据分析项目。甚至在开始查看数据之前就应该有计划。数据量越大,计划就应该越结构化。
记得我在之前的视频中提到过,数据分析项目需要提供对商业流程的洞察,这些流程是企业有能力且有意愿改进以创造新价值的。

数据分析师需要始终思考以下问题:哪些问题能提供可操作的洞察?我的问题的答案是否重要?我的问题的答案是否正确?
我们在学习如何编写聚合查询时讨论了最后一个问题。现在是时候讨论前两个问题了。
缺乏分析计划的风险 ⚠️
你可能听说过“分析瘫痪”这个术语,这是真实存在的。它发生在你被分析数据集的所有可能方式压垮,最终什么也没做的时候。

然而,更危险的是我称之为“分析大杂烩”的情况。这是当你开始分析任何看起来有趣或好玩的东西时。当你这样做时,最终会得到各种各样有趣但互不关联的结果,你不知道如何理解它们,即使你已经实施了数月复杂而精美的图表和分析。
当你使用这种分析策略向利益相关者展示你的发现时,你或许能从尝试过的不同分析中拼凑出某种孤注一掷的数据故事,但这个故事通常与需要解决的原始商业问题关系不大。
分析瘫痪和分析大杂烩的危险从一开始就存在,即当你想要开始摆弄数据以感受数据能告诉你什么的时候。虽然摆弄数据是有用的,实际上也是必要的,但你也可能以与目标无关的方式使你的策略产生偏见。

因此,在开始运行分析之前,制定一个关于你将实施哪些具体分析来解决你需要解决的商业问题的计划非常重要。这个计划应该受到以下两个指导性问题的启发。
制定结构化分析计划 🗺️
我们没有时间在本课程中详细讨论如何制定分析计划,但我在本专项课程早期的“使用 Tableau 进行数据可视化与沟通”课程中描述了我最喜欢的方法之一。我称那种方法为结构化金字塔分析计划。
既然我们现在无法一起制定一个,我已在课程材料中为你提供了一个大纲。本质上,你将看到的是一个针对项目的具体的、可衡量的、可实现的、相关的、有时限的目标,也称为金字塔顶端的 SMART 目标。
你将用于评估该目标的变量将写在目标下方。在这些变量下方,你会看到不断拓宽的类别和子类别层次,这些是为了实现你的 SMART 目标而需要分析的重要问题。
在正常情况下,这些类别应来自与你的利益相关者和分析团队在“需求征询”过程中的对话,以确保这些类别与你的解决方案——即你的公司愿意且能够实施的解决方案——相关。
结构化金字塔分析计划框架的一个特点是,你应该写下解决关于某个因素类别或子类别问题所需的确切变量或列名。既然你将是实际编写 SQL 查询来检索分析数据的人,这一步的效用现在应该清晰得多。你对自己需要分析的变量越具体,你就越能判断在给定数据库中的表的情况下,是否真的有可能分析这些变量。
明确你需要什么变量以及如何组合它们,也将使你更容易、更高效地推进并为每一类问题编写适当的 SQL 查询。
我们在“使用 Tableau 进行数据可视化与沟通”中学到的另一点是,数据分析在数据分析项目生命周期中只扮演一到两个部分的角色,而 SQL 查询扮演的角色甚至更为受限。
SQL 查询完全处于项目生命周期的这个部分,即我们检索数据和进行计算的时候。当然,SQL 查询对于项目的成功绝对至关重要,这就是为什么懂得使用 SQL 查询的数据分析师如此抢手。但重要的是要记住,查询只是你工作的一部分。
你需要确保你实施的查询能以正确的方式解决正确的问题,引导你形成一个关于哪些商业变革可以实现你的 SMART 目标的强有力的假设。
考虑到这一点,在接下来的几节课中,我将尽力(同时考虑到我们的主要目标是学习 SQL)让我们练习的这些 SQL 查询能够解决真实的分析问题,从而帮助我们获得一些可以呈现给 Dian 公司的洞察。我将处理的分析问题将基于课程材料中包含的结构化金字塔分析计划。
实践建议与总结 🎯

当你开始在自己的业务中进行 SQL 查询时,我强烈建议你为自己制定一个类似的分析计划。如果你需要学习如何做到这一点,请参考本专项课程中“使用 Tableau 进行数据可视化与沟通”第一周发布的材料。
本节课中我们一起学习了制定分析计划的重要性。我们了解到,在接触数据之前,一个清晰、结构化的计划是避免“分析瘫痪”和“分析大杂烩”的关键。它确保我们的分析工作始终围绕创造商业价值、解决具体问题展开,并能高效地与利益相关者沟通。记住,SQL 查询是强大的工具,但它们是服务于更宏观分析策略的一部分。现在我们已经了解了分析计划,让我们去帮助 Dian 公司解决他们的商业问题吧。
156:勇于提出专业疑问 💡

在本节课中,我们将探讨作为数据分析师,在掌握SQL技能后如何继续成长。核心在于理解提问和求助的重要性,这是技术领域持续学习和解决问题的关键部分。
恭喜你成为一名数据分析师。你现在可以正式宣称自己懂得如何使用SQL。
你坚持不懈地掌握了所有查询,这显著提升了你的收入潜力,也增强了你在工作中为企业创造真实价值的能力。
我希望这也激励你学习更多关于数据库的知识,并让你有信心,通过一点努力,你可以学习各种关于数据和技术世界的新知识,从而提升你的职业生涯。
如果你已经完成了本课程的所有练习,你掌握的知识足以立即在工作中开始使用SQL。然而,在实际操作中,你可能会对如何设计查询或提高查询效率产生新的疑问。
在这些情况下,你至少有几个可用的方法。
以下是寻求帮助的两种主要途径。
- 利用互联网资源:互联网拥有丰富的资源,可以帮助你以不同方式学习SQL函数,或者你可以向在线社区寻求关于如何处理特定问题的建议。开发者和学习者最常用的资源之一是
stackoverflow.com,它将自己定义为一个为程序员服务的协作编辑问答网站。任何时候你有SQL问题,我的建议是先搜索这个网站。很可能其他人已经问过相同或类似的问题,因此你将能看到他们是如何解决的。你也可以发布新问题。当你这样做时,编程社区的许多人通常会回应并提供帮助。 - 向同事求助:当你遇到SQL问题或困难时,另一个可以采取的行动是向你工作场所的其他程序员寻求帮助。特别是因为他们比你互联网上的任何人都更了解你公司的数据库环境。
我知道一开始这可能听起来有点吓人,因为你担心在被聘为分析师时,就应该了解关于数据库的一切。
我想向你保证,情况绝非如此。

技术世界发展如此之快,已经没有人能掌握所有的分析或编程工具了。一天中根本没有足够的时间去学习每一种语言和每一个程序,数据驱动型公司对此非常清楚。这正是为什么招聘人员如此看重雇佣那些渴望学习、有动力尝试新事物、并且不畏惧将刚学到的新工具应用到实际情况中的人。
招聘人员希望看到的是你能够投入其中并努力解决问题,而不是你无所不知。
以下是Ryan Lucki再次分享他加入Box时的经历。
我绝对很乐意在工作中向Box的同事寻求帮助。我刚开始时对网络应用程序一无所知,数据库是我在大学里唯一没上的高级课程。因此,在数据库方面我确实有很多问题。然而,Box的同事们非常乐于助人,愿意分享他们的知识,我现在掌握的很多知识都归功于他们。这至关重要。
我的经验是,既然人们并不期望你实际上知道一切,提问是完全可以的。事实上,很多最资深的工程师也会问很多问题,因为不可能知道所有事情。即使你非常聪明,或者在很多领域都有丰富经验,你也不可能随时了解关于每一项技术和每一个数据库的所有最新知识。

我特别想与你分享最后那段剪辑,因为它表明即使是资深工程师也可能遇到技术问题,甚至是像开灯这样简单的问题。当Ryan重新打开灯后,他留下了这段有益的临别赠言。
所以不要害怕学习和提问。去寻找愿意帮助你的同事和伙伴,因为没有人天生就懂这些。你总得在某个地方学习它。
听到Ryan和我的建议后,你可能会想,好吧,也许提问是可以的。但如果我犯了错误怎么办?人们会不会认为我不合格,并质疑当初为什么雇佣我?
这是商业世界中刚接触技术侧的人们非常普遍的担忧,但这也不应该是你过分担心的事情。
技术世界非常依赖人们学习新事物的能力,以至于人们犯错是常有的事。
以下是Airbnb的数据科学经理Elleana Grraywell,分享她对工作中犯错的看法。
我们有很多次把事情搞错,所以我有很多这样的例子。话虽如此,我认为任何团队都应该有一种非常重要的文化,那就是提出任何错误的文化,并且这应该被庆祝。我们理解每个人都会犯错,最重要的事情实际上是当你意识到自己犯了错时说出来,这样我们才能纠正它。因此,我认为公司最大的问题是当有人犯了错,他们要么太害怕,要么太担心而不敢提出来。所以这绝对是我们文化中非常重要的一部分。
如你所见,当你遇到麻烦或不知道如何做某事时,有信心寻求帮助,会比隐瞒自己卡住、不知如何继续的事实更有用,也更令人钦佩。
通过学习SQL,你已经向未来的雇主展示了你能拥抱商业世界数据驱动的本质。不要害怕拥抱随之而来的整个文化。这是一种充满强烈好奇心、持续学习和在每个角落都有激动人心的新冒险的文化。提问将成为你在这个快节奏社区中的燃料、灵感和最强大的武器。
我非常期待听到你为推动这个领域前进而提出的问题。


在你出发去进行数据探索之前,作为我的临别礼物,这里有一个链接,可能有助于你记住在本课程中学到的所有内容。
157:毕业设计项目介绍 🎓

在本节课中,我们将要学习毕业设计项目的整体介绍。这个项目将整合你在前四门课程中学到的核心技能,让你在一个模拟的商业场景中实践数据分析的全过程。
项目概述
恭喜你完成了专项课程五门课中的前四门。我们深知你为此付出的努力、精力和奉献。现在,你已正式成为80%的数据分析专家。我们希望你对学到的新技能感到兴奋,并已经开始学以致用。
在这个毕业设计项目中,你将有机会整合过去四门课程中学到的许多重要概念和技能,并练习将它们应用于一个新的情境。
项目角色与流程
在接下来的几周里,我们将逐步指导你完成一个商业数据分析项目从开始到结束的全貌。
你将在一家虚构的物业管理公司——Watershed Properties——中扮演数据分析师的角色。公司高管将要求你基于对特定商业问题的分析,提供商业建议。
以下是项目的主要步骤:
- 第一步:明确需求。你将通过获取信息来明确项目的期望、约束条件和时间范围。
- 第二步:查询与提取数据。你将查询数据库以了解可用的数据,并提取对你的分析最有用的数据。
- 第三步:构建预测与财务模型。你将在Excel中构建一个预测模型,并将该模型整合到一个关于Watershed能赚多少钱的财务模型中。
- 第四步:进行敏感性分析。你将使用Excel和Tableau进行敏感性分析,测试你的财务模型对假设变化的稳健性。
- 第五步:制作演示文稿。最后,你将制作一份演示文稿,利用关键结果说服Watershed的高管采纳你的商业建议。
完成项目后,你应该对自己从原始商业数据中制定具体、可操作建议的能力充满信心,同时也对自己以引人注目的方式传达这些建议的能力充满信心。
项目背景:短期租赁市场分析
接下来,我们详细了解一下你在未来几周将要开展的项目。如果你对房地产一无所知,现在正是学习的好时机。
如前所述,你将在一家名为Watershed Properties的虚构物业管理公司担任商业数据分析师。物业管理公司在业主无法或不愿亲自处理日常运营细节时,负责管理出租房屋和公寓的日常事务。作为收取一定比例租金的回报,像Watershed这样的公司被雇用来推荐租金、寻找租客、收取租金以及管理日常维护和维修。
迄今为止,Watershed的所有物业都是通过为期一年的长期租约出租的。然而,最近Watershed开始关注到像Airbnb、VRBO、HomeAway和Flipkey这样的网站引发的热议,这些网站使得将住宅物业短期出租给不同的客人成为可能,更像酒店房间。Watershed听说这种商业模式可能利润丰厚。他们最近发现有机会利用其一位主要客户的物业进入短期租赁市场,他们希望你就他们是否应该这样做提出建议。
在考虑短期租赁市场时,有许多有趣的因素需要考量:
- 收入与成本。尽管短期租客每晚愿意支付的租金高于长期租赁,但短期租赁的维护成本也远高于长期租赁,并且总体入住率低于长期租赁物业。
- 数据分析的竞争优势。也许比房地产领域的其他方面更为突出,短期租赁市场是一个数据分析能力能带来巨大竞争优势的领域。如果你能创建并应用一个预测租金价格、优化入住率并最大化总收入的模型,你就有可能比其他业主在短期租赁物业上获得更多的利润。
在接下来的几周里,你将学习如何将这些因素整合到一个分析中,以帮助你决定是建议Watershed进入短期租赁市场,还是坚持他们已经熟悉的长期租赁业务。
第一周任务:明确目标与约束
你将像任何数据分析师一样开始你的项目:进行一些背景研究,并在需求获取过程中提出问题。
你在项目第一周的目标应该是明确:我具体应该做什么?考虑到项目的时间和资源限制,我需要哪些信息才能正确完成这项工作?一旦我获得了这些信息,我将如何尽可能高效、有效地对其进行分析?
你可能急于开始数据分析,而不太愿意提问。但请记住我们在“使用Tableau进行数据可视化和沟通”课程中讨论的内容:大型数据分析项目失败的一个主要原因是分析师没有询问或倾听利益相关者,以了解他们想要什么或愿意采纳什么。
将第一周作为一个练习机会,从人们的书面或口头交流中提取关键信息。你会发现这实际上是一项具有挑战性且需要掌握的技能:你必须非常仔细地倾听,并保持思维的灵活性。你还必须细致地记录你收集到的信息,以便你能考虑到获得正确答案所需的一切,也便于你之后向利益相关者传达你的关键假设。
一旦你利用现有材料确定了项目的期望和约束,你将在周末与你的项目经理确认你的目标。
后续步骤概览
确认目标后,下一周你将能够开始密切处理数据。你将了解Watershed拥有哪些数据,并制定计划,说明如何使用这些数据来确定Watershed是否应该进入短期租赁市场。
获得数据后,你将首先使用Excel构建租金和入住率的预测模型,据此估算未来的租赁收入。然后,构建详细的财务模型,以确定这项新业务是否能够盈利并产生正向现金流。你还将能够确定你的财务模型对输入假设变化的敏感程度。
在项目的Excel部分之后,你将在Tableau中创建一个仪表板,以扩展和可视化围绕模型假设的敏感性分析。最后,你将创建一个引人注目的演示文稿,有效地传达你基于数据发现提出的后续行动建议。
我们希望你的最终成果能成为你新技能的有力证明,展示给他人,包括潜在的雇主。别担心,我们会全程陪伴,为你指明正确的方向。我们也真诚地希望你们能在讨论区互相帮助,因为我们是一个整体。
我们迫不及待想看到你们的成果。准备好成为一名Watershed的数据分析师吧!
总结

本节课中,我们一起学习了毕业设计项目的整体框架。你了解到这个项目将模拟一个真实的商业数据分析流程,从明确需求、处理数据、构建模型,到最终形成建议并演示。项目聚焦于分析物业管理公司是否应进入短期租赁市场这个具体问题,旨在让你综合运用Excel、数据库查询、Tableau等工具解决复杂商业问题。现在,你已经为开启这段实践之旅做好了准备。
158:流域所有者关心的核心问题 💰

在本节课程中,我们将探讨公司所有者如何从个人财富的角度,评估公司盈利指标的变化。我们将学习如何将公司未来的利润预测,转化为对所有者个人未来财富的预测。
在整个专项课程中,我们讨论了与盈利能力、收入和风险相关的商业指标。这些指标从公司的角度来看至关重要。
但本节将为你提供一些背景知识,说明流域公司的所有者——最终的决策者——如何私下评估公司盈利指标的潜在变化。其方法是将公司指标重新表述为另一个不同的指标:对其个人财富的潜在影响。
因此,本节内容是关于如何将公司对未来利润的预测,转化为对所有者未来财富的预测。
流动性事件的定义
首先,我们需要定义一个概念:流动性事件。
像流域这样的公司,其股份所有权不易出售。实际上,这类股份被称为非流动性资产。成功创立公司的企业家需要组织一次交易,以将其在公司中的部分或全部所有权转换为现金。
流动性事件是指允许企业家及其早期投资者将股份转换为现金的事件。
即使是暂无立即出售计划的企业家,也会关注对其公司在流动性事件中价值的估算,以及如果其当前未来利润计划成功,公司将会价值多少。观看本视频后,你也将知道如何进行此类估算。
但在进行估算之前,我们先来定义两种主要的流动性事件类型:首次公开募股和收购。
流动性事件的类型
以下是两种主要的流动性事件:
-
首次公开募股:IPO 或首次公开募股,通过满足所有法律和财务要求,向公众发售公司股票,从而为公司股票创造一个市场。这包括通过在纽约证券交易所等正式证券交易所上市,为这些股票提供持续的买卖市场。这个过程也称为上市。对于创始人而言,IPO 的一个优势在于,通过向公众发售一小部分总股份,他们可能能够在保持重大所有权和控制权的同时,为其所有股份获得流动性。他们可以随时在公开市场上出售更多股份,但没有义务必须这样做。
-
收购:收购将整个公司的所有权和控制权——即 100% 的股份——转移给买方。买方(收购方)通常是同一或相关市场中规模更大的公司。他们要么支付现金,要么以自己公开交易的股票形式支付。对于创始人而言,收购的优势在于,在协助完成一个过渡期(通常为一年左右)后,他们不再承担进一步的责任,可以自由地带着资金去从事新的事业。
估算私有公司股份价值
那么,一家私有公司的股份价值多少?
对于像流域这样稳定且持续盈利的公司,估算未来流动性事件中现金价值最常用的方法是:寻找可比公司,并观察其总市场价值与年利润的比率这一指标。
这个指标被称为市盈率。
例如,如果一家公司过去一年的总利润为 1000 万美元,总市场价值或市值为 2 亿美元,那么它的市盈率就是 20 比 1,即 P/E 比为 20。
市值的计算公式是:
市值 = 每股当前市价 × 公司总股数
因此,如果我们知道每股价格、总股数和年度总利润(这些对于上市公司都是公开信息),我们就可以计算任何公司的市盈率。
一家私有公司如果自身上市或被现金收购,其预期的市盈率将基于观察最相似的上市公司的平均市盈率来确定。“最相似”意味着它们处于同一行业板块,并具有可比的预期未来增长率。一个行业板块的增长率越快,其平均市盈率就越高。
例如,在美国,水泥制造业是一个增长缓慢的板块,其当前的市盈率约为 11。而像租赁服务(流域所在的板块)这样的高增长行业板块,截至 2016 年 2 月的市盈率约为 35。
应用于流域公司案例
这意味着,理论上,如果流域是一家大型成熟企业,其每年额外产生的 100 万美元利润,将创造大约 3500 万美元的股权财富。
你的项目经理要求你在准备向 CEO 和其他高管汇报时,包含一份关于流域公司年利润变化的预测(在长期租赁转为短期租赁完成后)。虽然提及利润变化对公司高管个人的影响超出了你的职责范围且不合适,但我可以向你保证,他们会在心里进行这个计算。
假设你的 CEO 拥有流域 10% 的股份,三年后流域年利润增加 200 万美元,在假设未来流动性事件以 35 倍市盈率发生的情况下,可能会使其个人股份的估计价值增加 700 万美元。如果相关风险能够得到管理,这应该为采取行动提供了强大的激励。


在本节课中,我们一起学习了所有者如何从个人财富角度评估公司决策。我们定义了流动性事件(如 IPO 和收购),并引入了市盈率作为估算公司价值的关键指标。通过将公司利润预测与行业平均市盈率结合,所有者可以估算其股权价值的变化,从而更直观地理解商业决策对其个人财务的影响。
159:与项目经理的需求访谈 🎯

在本节课中,我们将学习如何与项目经理进行需求访谈。通过分析一个关于短期租赁市场的项目对话,我们将了解如何从业务讨论中提取关键信息、明确分析目标,并识别数据需求。这对于任何数据分析项目的成功启动都至关重要。
很高兴见到你。感谢你同意参与这个项目。
我们非常看重你的数据分析技能,并且非常期待看到如何运用这些技能来快速且成功地推进这个项目。
正如我们初步讨论时提到的,我们的许多业主一直在询问,我们是否提供允许他们通过像Airbnb、Flipkey或VRBO这样的网站将房产作为短期租赁的服务。这些业主仍然不打算住在自己的房产里。有时他们甚至不住在房产附近,因此不想自己管理租赁的麻烦。尽管如此,他们在媒体上看到了很多故事,暗示短期租赁可能有利可图。所以他们想知道是否存在可以让他们利用的短期租赁机会。
我们听到了太多这样的询问,以至于现在,我们Watershed公司也在思考是否应该抓住这个短期租赁机会。
我们请了一位实习生为我们做了一些初步的数据收集。我们的财务部门也做了几项快速分析,以了解运营短期租赁可能产生的一些成本。我们还没有对这些信息做太多处理。但后来,我们的CEO Sally Reinhart最近与一位长期客户进行了一次非常有趣的对话,这让我们认为,如果我们打算进入这个市场,现在正是时候。
我们管理着这位客户的244处房产。他们是我们的最大客户之一,我们与他们关系非常好。该客户明确表示,他们对短期租赁的机会非常好奇。
Sally认为,如果我们迅速行动,他们会愿意接受利润分享安排。所以基本上,Sally希望我们利用这位客户的好奇心,作为我们(如果决定要做的话)进入短期租赁市场的跳板。
这就是需要你发挥作用的地方。我们需要你帮助我们建立一个模型,能够预测我们可以为该客户投资组合中的每套公寓收取的最佳短期租赁费率,以及如果我们提供优化后的费率,这些公寓的入住频率。
我们希望你能利用这些预测来帮助我们估算,如果我们将客户的部分或全部房产转换用途,我们可能赚取多少收入。我们已为你安排了一次与Watershed高管团队的会议,如果你的分析表明这个市场值得我们投入时间和精力,你可以在会议上展示你的发现。在接下来的几周和几个月里,我们希望你能与我们的业务和营销团队合作进行额外的分析,以确定我们应该向客户提出什么样的具体方案。
如果不值得投入,了解这一点也很好。这样我们就可以保持当前的租赁策略。
我们知道我们正试图在一个非常紧迫的时间表上做出决定,所以我们不期望你为已安排的会议建立一个完美的初始模型。特别是,我们没有足够的数据来了解租赁费率在一年中不同时期如何变化。所以目前,我们不希望你担心每周或季节性的影响,尽管我们从初步分析中知道这些因素很重要。我们也不希望你考虑任何营销策略,比如折扣、优惠券或一年中可能影响特定地点租赁的特殊活动。
在我们决定是否值得在这个想法上投入更多时间或资源之后,我们再来处理这些事情。

你问将一套公寓转换为短期租赁需要多长时间。看来你做了研究。你说得对。为了让房产适合短期租赁,我们必须为它们配备家具。我们不太清楚这需要多长时间,但我们确实预计对你的第一个模型来说,这应该相当快。假设在房产转换期间,不会产生任何重大的租金支付损失。
不过,我很高兴你提到了家具,因为我们确实需要考虑转换房产的成本。
我们也意识到,如果我们将房产转换为短期租赁,我们之前的客户服务将不够用。首先,我们必须雇佣一些承包商来处理钥匙交接和客人之间的清洁工作。在你的模型中,你必须包含对这些承包服务成本的估算,以及任何你认为对估算短期租赁典型维护成本很重要的其他事项。
此外,当你展示分析时,高管们想知道的一个重要事项是,当所有这些费用加起来时,需要多少现金来覆盖这些支出。
好问题。我认为你不必自己提出承包家具、钥匙和清洁服务的成本。我很确定我们的实习生已经研究了很多这些数字,所以我可以让你联系我们的营销总监Sherry Douglas。她是实习生的主管,因此应该能够为你提供实习生汇编的数字和报告。我也会让你联系我们的财务总监James Houston。他将能够帮助你解决其他一些财务问题。
好的,感谢你提出的好问题。我们将在本周末前联系,讨论你的进展,以便我们知道你掌握了足够的信息,可以在演示时满足并打动高管们。

在本节课中,我们一起学习了如何通过需求访谈来明确数据分析项目的背景、目标和约束条件。我们了解到,项目源于市场机会和客户需求,目标是建立一个预测模型来估算最佳租赁费率、入住率和潜在利润。同时,我们也明确了项目的初始范围,例如暂不考虑季节性因素和具体营销策略,并识别了获取成本数据等关键信息的需求渠道。掌握这些信息是构建有效分析模型的第一步。
160:与流域市场总监的需求访谈 🎯

在本节课中,我们将通过一段与市场总监的模拟访谈,了解短期租赁项目的商业背景、核心运营模式以及需要解决的关键分析问题。这是启动任何数据分析项目前,理解业务需求的关键第一步。
概述
很高兴与你见面。我很高兴你将主导短期租赁项目的分析部分。我听说Sally希望推进这个项目。我们的Brittany在上个月离职前,已经做了相当多的背景研究来了解这个行业。我可以为你总结一下她的发现,帮助你开始工作。
行业背景与模式
上一节我们概述了项目背景,本节中我们来看看短期租赁行业的基本运作模式。
我不确定你对短期租赁行业了解多少,但这个行业的基础似乎是:人们旅行时,喜欢住在有个人感觉的地方,而不是酒店。
像Airbnb、Flipkey或VRBO这样的公司的创新理念在于意识到,当公寓或房主外出或有一个闲置房间时,只需很少的帮助,房主就可以安排旅行者入住他们原本空置的空间。在某些情况下,他们甚至可以在房主仍住在房子的另一部分时,只出租一个闲置的房间。
这种方式让旅行者在旅行时感觉像是客人,而不是消费者;而房产主则可以赚取一些额外收入。这对每个人来说都是双赢,至少在大多数情况下是如此。
以下是实现双赢的关键条件:
- 对旅行者而言,只要他们入住的房产干净且待客友好,就是赢家。
- 对房产主而言,如果他们不需要花费半周时间来准备公寓和从客人那里取回钥匙,就是赢家。
市场机会与我们的角色
根据我们的市场分析,这些注意事项非常重要,因此确实存在一个市场,让我们这样的房产管理公司通过处理Airbnb类网站和房产主之间的所有环节,来帮助确保入住过程顺利进行。
也就是说,有一些事情我们需要考虑。我们的研究表明,如果我们希望房产主与我们合作,而不是直接与短期租赁网站合作,我们需要管理以下事项:
- 处理钥匙和入住服务。
- 在客人离开后清洁公寓。
- 清洗衣物。
- 补充所有洗浴用品和纸制品。
- 定期进行房产检查,确保没有需要维修或更换的物品。
- 支付水电费并确保房产有可用的网络接入,诸如此类的事情。
在我们的案例中,由于我们所有的房产都是未装修的,我们可能还需要负责最初的家具配备和公寓装饰。
所以,我们认为这是一个可能值得进入的有趣领域,但有很多环节需要考虑。因此,我们需要你弄清楚,从财务角度来看,我们追求这件事是否合理。
核心分析任务
特别地,我们能够收集到一些关于人们目前为短期租赁房产支付何种费率的数据。我们相当确定,目前大多数短期租赁的定价并未进行成本优化。我们不太清楚如何利用这些数据,通过优化租金和入住率来预测其房产的最大收入。我想这是Brian请你首先关注的事情,对吧。
关键参数与假设澄清
基于以上背景,有什么问题是我可以帮你解答的吗?
关于平台佣金
是的,好问题。你说得对,像Airbnb、Flipkey或VRBO这样的网站确实会从租客支付的费用中抽取一部分。我们可以安全地假设,租金的20%需要支付给我们用来宣传房产的任何酒店预订网站。
关于初始成本与维护费用
嗯,我可以回答其中一个问题,但不能同时回答两个。我们确实对配备一个设计精良的公寓家具需要多少成本有了一个很好的估算,即30,000美元。这30,000美元将涵盖家具、毛巾、床单、厨房用具以及其他必要物品。我们还认为,在初始设置之后,我们可能每年需要分配6,000美元用于维修和更换任何损坏的物品。
至于所有合同服务的成本是多少,你应该询问我们的财务总监James,他正在负责那部分工作。
关于平均住宿时长
客人住多久?这是个好问题。有些人住一晚,有些人住四周。我认为我们得出的结论是平均每次入住约为三晚,但这个数字确实取决于一年中的时间和房产的位置。
关于法规变化
啊,你对短期租赁不断变化的法规感到好奇。嗯,这当然是一个有趣的问题,我很高兴你研究了它,因为这很可能成为未来的一个重要因素。似乎有些城市最终可能会限制一处房产可以进行短期租赁的天数,而其他城市如果房产主出租房产过于频繁,可能会开始对他们征收酒店税。我们需要密切关注这些因素,但它们一直在变化,所以我现在还不确定该怎么说。抱歉,在这方面无法更具体。
总结与结语
本节课中,我们一起学习了短期租赁项目的基本业务场景。通过这次访谈,我们明确了项目的商业逻辑、潜在的市场机会(作为专业管理方填补市场空白)、需要管理的复杂运营环节,以及最核心的分析任务:利用现有租金数据,通过优化租金和入住率来预测房产的最大可能收入,并评估项目的财务可行性。同时,我们也获得了关键的业务假设和数据输入,例如平台佣金率(20%)、初始装修成本($30,000)、年均维护费用($6,000)和平均住宿时长(3晚)等。
很高兴与你交谈,祝项目顺利。如果你有任何进一步的问题,请随时与我联系。希望整个短期租赁项目最终能成为一个好主意,这将是一个有趣的市场项目。
161:与流域财务总监的需求访谈 🏢

在本节课中,我们将学习如何与财务总监进行需求访谈,以获取构建财务模型所需的关键信息和假设。我们将重点关注短期租赁业务的成本结构、收入模型和财务分析要求。
背景介绍
我们直接开始。以下是当前业务的背景信息。
我们与长期租赁物业的现有财务模型是:我们收取每月租金的12%。物业所有者获得剩余部分。我们预计,如果涉足短期租赁业务,此模型将会改变。
成本结构分析
上一节我们介绍了收入模型,本节中我们来看看具体的成本构成。特别是,我们需要雇佣承包商来承担一些目前不提供的服务,例如钥匙更换和洗衣服务。
您还应该知道,我们管理的物业并非总是处于出租状态,但我们估计其出租率约为97.3%。
以下是关于成本的具体估算:
- 当Sherry的实习生请求帮助研究承包商成本时,我估计每次租赁的中位数成本约为100美元。
- 根据我们存档的公用事业账单,我估计每个短期租赁物业每月的公用事业费用约为300美元。
对于您的首次分析,我认为可以假设所有物业具有相同的承包商成本和相同的公用事业账单。只需使用中位数值。之后,如果需要,我们可以调整模型,为每个物业定制这些成本。但目前,我们只是试图从财务上判断涉足短期租赁业务是否合理。
资产折旧与融资
关于物业装修,我们将通过折旧来核算转换物业所需的任何前期现金支出。具体方式是:成本将在五年内,每年按原始金额的20%折旧。
我认为Sherry告诉过您,装修一套公寓的成本是30000美元,对吗?那么,您需要核算的是30000美元的20%,即每年6000美元,持续五年。
我们还了解到,如果为此项目申请任何贷款,利率将为6%。您需要知道,在Watershed公司,我们不喜欢贷款,除非我们确信这是一项好的投资。我们不喜欢为冒险而冒险,我们喜欢在了解不确定性的情况下做出经过计算的决策。
财务模型细节与假设
基于此,您应该知道,我的部门将对您模型中包含的数字细节非常感兴趣,因为我们的职责是确保我们能够实际支付您提出的任何方案。
我建议您准备好讨论您向高管们展示的所有数字的具体计算过程,即使您没有在幻灯片中包含这些细节。您现在还需要我提供其他信息吗?
是的,几乎每个人都按时支付租金,因此可以假设我们无需担心滞纳金或追讨租金的问题。
好问题。基于我们已知的当地酒店或接待税,以及一些州正在考虑的新法律,跟踪该行业的监管环境非常重要。我认为,在您的模型中建立一个代表监管税费的变量是明智的。
根据目前所见,我认为每次租金支付的10% 应足以覆盖这些最终成本。这是一个合理的假设,特别是如果我们希望保守一点的话。
演示报告要求
您想知道我们在您的演示报告中希望看到哪些具体内容。高管们希望知道,如果我们将所有客户明显盈利的物业转换为短期租赁,我们应该预期的现金流变化和利润变化。
至于什么算作“明显盈利”,我认为我们需要关注那些在偿还初始转换成本后,作为短期租赁比作为长期租赁每年利润多出6000美元的任何物业。
高管们希望看到物业转换当年以及之后两年的这些数字。同时,请务必计算还清任何贷款所需的时间,以防他们决定贷款。
在财务方面,我们希望看到您模型中包含的内容以及您的模型与数据的拟合程度。我们也会对您的假设及其对结论的影响非常感兴趣。
我认为,帮助我们向前推进的最佳方式是,在向我们展示潜在的现金流和利润变化时,尽可能保守。这意味着首先假设Watershed公司将支付物业的所有转换成本,以及所有承包商、公用事业、交易费、维护费和监管费。
基本上,在您的计算中,假设我们将支付一切费用。然后,如果我们决定继续向客户提供交易,我们将建立一个更复杂的模型,以帮助我们决定应向客户提议何种成本分摊安排。
好了。很高兴能提供帮助。祝您好运,我期待听到您的分析结果。
在本节课中,我们一起学习了如何通过需求访谈获取关键财务参数,包括收入分成模式、运营成本(承包商、公用事业)、资产折旧方法、贷款利率以及保守的财务分析假设。这些信息是构建短期租赁业务财务可行性模型的基础。
162:数据初探


在本节课中,我们将学习如何利用Watershed公司提供的数据来达成项目目标。我们将探索数据库结构,识别所需数据,并将其提取到Excel和Tableau中进行初步分析,为后续的价格预测策略制定做好准备。
上周我们明确了项目的目标和约束条件。本周,我们将探讨如何利用Watershed公司提供的数据来达成这些目标。
Watershed是一家非常成功的物业管理公司,但传统上,他们很少使用数据分析来决定业务方向。这个短期租赁项目是他们首次尝试运用数据分析。因此,你得到的数据可能不完全符合你的期望。
首先,虽然提供给你的数据目前存储在MySQL数据库中,但这个数据库是由一名业务实习生设计的,而非数据库管理员。这名实习生不知道如何建立关系型数据库模式。因此,你需要自行弄清楚数据库的组织结构。当然,我完全相信你能胜任这项工作,因为这就像你在《用MySQL管理大数据》课程中弄清楚Dition数据库结构一样。
其次,实习生可能没有包含你所期望的许多变量,尤其是在需求收集阶段你了解到的一些问题。但请放心,数据库中肯定包含足够的信息,足以实现你和项目经理为当前项目商定的目标。
本周你要做的第一件事,就是运用在《用MySQL管理大数据》课程中学到的技能,弄清楚数据库中有哪些可用数据。
然后,你需要确定分析项目所需的数据,并将其从数据库中提取成可以在Excel和Tableau中读取的格式。
接着,特别是因为你的输出结果已经是表格形式,你将在Tableau中快速浏览数据,以发现是否存在异常值,并确保你理解每个变量包含的信息。
以你制作的SPAap(假设为项目计划或分析框架)为指导,你将制作一些快速图表,以确定在分析中是否需要考虑某些因素。完成这些步骤后,你将为下周的工作做好准备,届时你将制定预测短期租赁价格的策略,以最大化Watershed每位客户房产的利润。
你准备好充分发挥你的MySQL技能了吗?


本节课中,我们一起学习了数据探索的初步步骤。我们了解到Watershed数据库的设计背景和潜在局限,并明确了本周的任务:探索数据结构、提取所需数据、在Tableau中进行初步检查与可视化。这些工作将为下周制定利润最大化的价格预测策略奠定坚实的基础。
163:构建短期租金预测模型

概述
在本节课中,我们将学习如何利用从数据库提取的房产数据,在Excel中构建一个预测模型,以优化短期租金定价。我们将重点介绍数据标准化、建立线性关系模型,并使用Solver工具寻找最优租金与入住率组合,从而最大化预期租金收入。
回顾与衔接
上一周我们成功使用SQL提取了房产位置和定价数据,为分析工作奠定了基础。这展示了作为商业数据分析师的一项关键技能。
接下来两周,我们将重点应用Microsoft Excel对这些数据进行分析、预测、优化和财务建模。视频附带的文档详细解释了所有需要的Excel方法,并提供了指南和模板电子表格。
在开始使用六个模板电子表格之前,建议先阅读关于Excel最佳实践的文档。如果按照推荐的方式设置公式,后续添加新步骤或纠正错误会容易得多。
第一周任务:构建预测模型
第一周,我们将应用第1课和第2课的技术,从数据中创建一个预测模型,并利用该模型为Watershed房产设定最优的短期租金价格。更大的目标是确定Watershed公司进入短期租赁业务是否具有商业意义。
我们将在第二周更直接地探讨这个问题,通过评估在转换完成后的第一个完整年度,Watershed能够实现多少额外利润。之所以关注利润而非收入、现金流或其他成功指标,已在第一周的视频“Watershed所有者关心什么”中解释过。
核心概念:收入优化
回到“数据驱动公司的商业指标”课程中,我们学习了酒店客房收入优化。我们看到,在其他条件相同的情况下,更高的租金会导致更低的入住率。当时,我们没有探讨任何数学方法来描述这种关系,或寻找租金和入住率的最优组合,尽管在第1课中我们确实接触过使用Microsoft Solver工具进行优化。
现在,我们回到这个问题,背景是Watershed希望最大化潜在利润。为了最大化利润,我们首先需要最大化预期租金收入。目标不是最大化租金或入住率,而是两者的乘积。当两者的乘积达到最大值时,我们称租金和入住率都得到了优化。优化概念及其在Solver中的实现方法,在视频和指南电子表格中有详细解释。
建立数学模型
在优化租金收入之前,你需要一个数学公式来关联租金与预期入住率。我们在可比数据中拥有244对租金与入住率数据。计划是使用一条简单的最佳拟合线来模拟这种关系。
然而,你会发现,使用原始的美元租金并试图将其与入住率关联起来,对于预测是无效的。为了开发一条具有足够高预测价值、真正可用于预测的最佳拟合线,我们需要对租金数据进行一种称为标准化的转换。
数据标准化
在这种情况下,标准化将原始美元租金转换为我们称为百分位租金的数据。标准化是一项重要且广泛使用的技术,但在本专项课程之前尚未涉及。我们在此通过专门的视频和指南电子表格来介绍和解释它。
在你建立了标准化租金与入住率之间的强线性关系(即最佳拟合线公式)之后,你将应用Solver优化方法,为一部分Watershed房产样本生成最优租金。
不用担心,你不需要运行Solver 244次。一旦你证明了你知道如何在Solver中获得正确答案,我们将在顶点课程的Excel部分的第二周,为你提供一个快捷方法,以便快速轻松地为其余的Watershed房产生成最大租金收入。
总结
本节课中,我们一起学习了如何为短期租金预测构建数学模型。核心步骤包括:对原始租金数据进行标准化处理,建立标准化租金与入住率之间的线性回归模型,并利用Excel的Solver工具寻找使租金收入最大化的最优定价组合。这为评估Watershed进入短期租赁业务的潜在盈利能力奠定了分析基础。

祝你好运。
164:📊 租金标准化以改进入住率预测

在本节中,我们将探讨如何通过“标准化”租金数据,来改进之前建立的线性模型,从而更有效地预测短期租赁房产的入住率。
概述
上一节我们尝试使用原始租金(美元)来预测入住率,但发现数据点分布散乱,模型预测效果不佳。本节中,我们将介绍“标准化”的概念,并演示如何将原始租金转换为“百分位数租金”,以期揭示数据中潜在的规律,构建更有用的预测模型。
原始模型的局限性
这些有序的数据点更像一团云,而非一条直线。
它们将导致对每个夜间租金的个体入住率预测毫无用处。
可以证明,这个线性模型并没有显著更好。
它的预测准确度仅比所谓的“基准率预测”高出不到2%。基准率预测是指为所有244套短期租赁房产统一预测45.6%的入住率。
选择45.6%是因为它正是这244套房产入住率的平均值或基准率。
每当你的个体预测效果不优于预测基准率时,你的信息增益就为零,你的模型完全没有减少不确定性。
因此,使用这个模型来试图找出能最大化收入的最佳夜间租金是无效的。
引入标准化解决方案
一个潜在的解决方案叫做“标准化”。
广义的标准化意味着以某种方式改变散点图中的X轴或Y轴坐标(或两者),以揭示原本混乱数据中的潜在模式。
在建模中,标准化通常是必要的。
我们将展示一种改变这些数据中X轴值的方法。
这种方法能保留并增强它们的信息含量。
配套的电子表格和讲义解释了我们将要使用的标准化过程背后的算术步骤。
但我首先想解释这种特定标准化背后的逻辑。
事后看来,使用原始的美元夜间租金作为生成入住率线性模型的基础效果不佳,这并不奇怪。
正如我们在第一课中所见,如果一个房产相对于其竞争对手价格昂贵,它的入住率往往较低。如果它价格较低,入住率则往往较高。
但在包含244套房产的原始数据中,未经标准化的X轴尚未对应于与可比或竞争性房产相比的相对价格度量。
例如,在北卡罗来纳州格林斯伯勒,每晚200美元的一居室公寓,对于其房产类型和位置来说可能相对昂贵。
而在纽约市曼哈顿,每晚200美元的两居室公寓可能相对便宜。
但两者都会出现在X轴的同一个点上。那么,与200美元这个点对应的正确Y轴入住率应该是多少?是由于高租金的格林斯伯勒房产导致的低入住率,还是由于低租金的纽约市房产导致的高入住率?
因此,在这种情况下,值得尝试对夜间美元金额进行标准化,不是计算原始美元金额,而是计算每套房产相对于可比房产(相同邮编、相同类型)的其他租金而言,是便宜还是昂贵。
百分位数标准化方法
我们将以“百分位数租金”的形式进行标准化。
每套房产位于从非常低的租金(第10百分位数)到非常高的租金(第90百分位数)的尺度上的哪个位置?
这就是为什么我们现在需要数据库中244种房产类型和邮编组合各自的第10百分位数和第90百分位数租金字段。
当然,标准化数据并不能保证比非标准化数据产生更好的线性关联。
但我们希望探索这种标准化方法。
并看看会发生什么。

实践与应用

配套的电子表格和讲义展示了所涉及的算术步骤。
你应该使用练习电子表格进行实践,确保理解讲义中的算术。
然后编写你自己的Excel电子表格,以高效地将所有244个夜间租金美元值转换为相对的百分位数值。
总结

本节课中,我们一起学习了为何原始租金数据在预测入住率时效果不佳,并引入了“标准化”作为解决方案。我们重点探讨了将原始美元租金转换为“百分位数租金”的逻辑,这种方法考虑了房产在其特定市场和类型中的相对价格位置。通过这种转换,我们有望从看似混乱的数据中发现可用于构建有效预测模型的清晰模式。
165:使用美元到百分位转换指导表 📊

在本节课中,我们将学习如何使用一个特定的 Excel 表格,将具体的美元租金数值转换为对应的百分位排名。这个转换过程依赖于已知区域的第10百分位和第90百分位租金作为参考点。
上一节我们介绍了百分位数的概念,本节中我们来看看如何利用两个关键的百分位参考点进行具体的数值转换。
这个 Excel 表格清晰地展示了将具体的美元租金转换为百分位排名的算术过程。其核心思想是,将我们拥有的具体租金数值,与两个已知的“路标”进行比较:一个是第10百分位的租金,另一个是第90百分位的租金。
这意味着,我们通过比较具体租金与这两个参考点的相对位置,来确定其百分位排名。例如,如果我们的租金恰好位于这两个参考点的正中间,那么由于第10和第90百分位之间跨越了80%的数据,中点就对应着第50百分位(10% + 40%)。如果租金更接近高端参考点,则百分位排名更接近90%;如果更接近低端参考点,则百分位排名更接近10%。
以下是使用该表格进行计算的具体步骤:
- 输入参考值:针对每一个特定的房产,你需要在表格中输入该区域已知的第10百分位租金和第90百分位租金。
- 计算范围:表格会自动计算出这两个百分位租金之间的差值范围。
- 计算超出部分:接着,输入你拥有的具体租金数值。表格会计算该租金超出第10百分位租金多少金额。例如,若第10百分位租金为$100,你的租金为$180,则超出部分为 $80。
- 计算比例并转换:然后,表格会将这个“超出金额”除以之前计算的“差值范围”,得到一个比例。这个比例表示你的租金在从第10到第90百分位的区间内所处的位置。用公式表示即:
比例 = (输入租金 - 第10百分位租金) / (第90百分位租金 - 第10百分位租金) - 得出最终百分位:最后,将这个比例乘以80%(即第10到第90百分位所覆盖的区间),再加上基础的10%,就得到了最终的百分位排名。公式如下:
最终百分位 = 10% + 比例 * 80%
按照上面的例子,如果计算出的比例是0.427,那么最终百分位就是 10% + 0.427 * 80% = 52.7%。

上图展示了这个计算过程的实际表格布局,你可以清晰地看到每个输入单元格和计算步骤。
对于同样的计算逻辑,还有一种等价的解释方法,其本质完全相同。你可以自己动手尝试,在Excel中构建这样一个表格来加深理解。


本节课中我们一起学习了如何利用第10和第90百分位作为锚点,将具体的美元租金数值转换为有意义的百分位排名。这个方法使我们能够在统一的尺度上比较不同房产的租金水平,是商业分析中数据标准化和比较的实用技巧。
166:租金优化以实现收益最大化 📈

在本节课中,我们将学习如何通过优化租金价格来实现收益最大化。我们将从一个简单的线性模型入手,解释核心概念,并演示如何使用Excel的规划求解工具找到最优解,而无需复杂的微积分计算。
线性模型与收益最大化 📉
上一节我们介绍了商业分析的基本框架,本节中我们来看看一个具体的收益优化问题。我们从一个简单的线性关系开始。

假设有一条向右下方倾斜的直线。这条直线有一个斜率,标记为 beta,以及一个Y轴截距,标记为 alpha。对于直线上的所有点 (X, Y),Y轴的坐标值是X轴坐标值的一个线性函数。

这意味着 Y 总是等于 X 乘以 beta,再加上一个常数 alpha。用公式表示这个关系就是:
Y = beta * X + alpha
我们在这里使用的优化方法,旨在找到X轴上的一个唯一点,使得该点的 X * Y 的乘积大于直线上任何其他点 (X, Y) 的乘积。
图形化理解:寻找最大矩形面积 📐
从图形上思考,可以将此情况视为一个矩形。该矩形的左下角位于原点 (0,0),右上角则位于直线上的点 (X, Y)。这个矩形的面积就等于乘积 X * Y。
我们的目标是找到具有最大面积的矩形。这类问题通常可以用微积分解决,但这里我们将展示如何利用Microsoft Excel的“规划求解”插件,无需微积分即可完成。
电子表格实例分析 💻
在电子表格示例中,同一个房产可以以每晚150美元的价格出租,并获得70%的入住率;或者以每晚200美元的价格出租,并获得50%的入住率。
任何夜间租金的入住率都是基于直线的斜率和Y轴截距进行的预测,这与你在本课程最终项目中,使用最佳拟合线预测信用卡客户的利润或损失的方法完全相同。
预测的年收入等于夜间租金乘以一年的365天,再乘以入住率。因此:
- 150美元的租金产生的预测收入为:
150 * 365 * 70% = $38,325 - 200美元的租金产生的预测收入为:
200 * 365 * 50% = $36,500
请注意,在这个例子中,较低的租金带来了更高的预测总收入。然而,在某个点之后,尽管降低租金会增加入住率,却无法再提高总收入。
例如,在每晚100美元的租金下,预测入住率为90%,但预测年总收入反而更低:100 * 365 * 90% = $32,850。
以上这些租金水平都不是最优的,它们没有实现预测年收入的最大化。
使用规划求解工具找到最优解 🎯
为了确定直线上的精确最优点,我们需要使用规划求解工具。
在Microsoft Excel的规划求解优化电子表格中,进行以下设置:
- 将目标单元格(年收入,例如单元格E26)设置为“最大值”。
- 通过更改可变单元格(夜间租金,例如单元格B26)来求解。
如果你正确操作,应该会得到一个最优租金:$162.50。这会导致预测入住率为 65%,从而得到预测年收入 $38,553.13。
从图形上看,在所有能放入最佳拟合线下方的矩形中,面积最大的那个(相当于最高的平均夜间租金)位于点 (162.5, 65%),其平均每晚租金为 162.5 * 65% = 105.63 美元。
案例研究的核心启示 💡
本案例研究的重要观点是:Watershed公司可以以短期夜间租金出租房产,根据预测,其产生的年收入将远比例子中的房产更高。
另一种表述方式是:使用示例房产数据生成的最佳拟合线上,那个使收益最大化的最优点,可能并不对应于示例房产中任何先前观察到的“租金-入住率”组合。
你从数据库中提取的这些短期租赁示例房产,其租金并非最优。它们是基于房产所有者凭直觉设定的租金,没有经过任何数据分析或预测模型。其中大多数租金要么过高,要么过低,无法达到最优。
但尽管这些夜间租金是错误的,由于它们与入住率相关联,我们仍然可以利用它们来构建一个预测模型,从而为Watershed的房产确定最优租金。

本节课中,我们一起学习了:
- 如何用线性模型(
Y = beta * X + alpha)描述租金与入住率的关系。 - 如何将收益最大化问题转化为寻找直线下最大矩形面积的问题。
- 如何利用Excel的规划求解工具,通过设置目标单元格和可变单元格,快速找到最优租金价格。
- 理解了实际数据中的租金可能并非最优,但我们可以利用这些数据建立模型来寻找真正的最优解。
167:使用求解器实现收益最大化
概述

在本节课程中,我们将学习如何使用 Excel 的“求解器”工具,在已知租金与入住率存在负相关关系的情况下,找到能够最大化年收入的最优租金价格。我们将通过一个酒店定价模型来演示这一过程。
模型基础:租金、入住率与收入
在表格的左上角区域,我们设定了不同的租金价格和对应的入住率。
租金乘以入住率,可以得到平均每晚租金收入。其公式为:
平均每晚租金收入 = 租金 × 入住率
将平均每晚租金收入乘以一年的天数(365天),即可得到年收入。其公式为:
年收入 = 租金 × 入住率 × 365
这个计算逻辑相对直接,易于理解。
理解租金与入住率的关系
我们在此使用了一个预测模型。该模型表明,当租金价格上涨时,入住率会随之下降。这意味着两者之间的关系系数(Beta)小于零,是一个负值。
在图表上,这条关系线会向右下方倾斜。这与我们过去所学的经济学原理一致:对于同一种产品或服务,定价越高,市场需求通常会减少。因此,随着租金价格的提高,入住率往往会降低。
优化目标:寻找最大收入点
我们的目标是找到使“租金 × 入住率”这个乘积达到最大值的点。
从几何意义上理解,这相当于在由原点(0,0)和关系线上的点(X, Y)所构成的矩形中,寻找面积最大的那个矩形。这个矩形的面积(租金 × 入住率)乘以365,就对应着年收入。
为了找到这个最优点,我们将使用 Excel 的“求解器”工具。
使用求解器进行优化
此电子表格中的所有参数都可以修改。你可以调整关系线的斜率(Beta值),也可以更改其在Y轴上的截距(Alpha值)。
这样设计的目的是让你能够通过操作表格,熟悉如何使用“求解器”来寻找使总收入最大化的最佳租金。
当你掌握了入住率随租金变化的函数关系,或者你拥有一个自己确信的、关于入住率如何随租金变化的预测模型时,这个方法尤其有用。
以下是使用求解器的一般步骤:
- 在Excel中加载“求解器”加载项。
- 设定目标单元格(即年收入计算公式所在的单元格)。
- 选择“最大值”作为目标。
- 设定可变单元格(即租金价格所在的单元格)。
- 添加约束条件(例如,租金必须为正数,入住率在0到1之间等)。
- 点击“求解”,让工具自动计算最优解。
总结

本节课我们一起学习了如何利用“求解器”工具解决商业中的最优化问题。我们首先建立了租金、入住率与年收入之间的数学模型,理解了它们之间的负相关关系。接着,我们明确了优化目标是找到使“租金 × 入住率”乘积最大化的点,这对应着最大的年收入。最后,我们介绍了使用“求解器”执行此优化计算的基本思路和可调参数,为在实际业务场景中应用此技术奠定了基础。
168:估算流域现金流与利润 💰

在本节课中,我们将学习如何使用Excel进行财务建模,以估算将“流域”房产转换为短期租赁后,每年的现金流和利润变化。我们将从回顾上周的工作开始,逐步构建财务模型,进行优化计算,并最终通过敏感性分析来评估投资风险。
回顾与目标 🎯
上一节我们介绍了如何使用Excel分析可比房产的定价和入住率数据,并创建了预测模型来优化租金以实现收入最大化。这些是非常实用的方法。
本节中,我们将深入探讨核心的商业问题:评估“流域”公司若将其244处房产全部或部分转换为短期租赁,所需的前期投资以及未来可能产生的收益。本周的重点是学习使用Excel进行财务建模的最佳实践。
财务建模基础 📊
以下是构建财务模型所需遵循的步骤列表:
- 获取工具:首先,你需要找到并下载包含“Alic替代求解器”的文档。你需要仔细地将这个公式复制到模板电子表格中标记好的三列里。如果操作正确,你将很快获得所有244处房产的年收入优化结果。
- 应用财务假设:接着,你需要在电子表格的附加列中,应用所有基本的财务假设,以便准确计算出转换年份及之后年份的现金流和利润变化。相关的假设已在关于年度现金流和利润的视频与指南表格中再次列出并解释。
- 理解关键概念:在视频和指南表格中,我们回顾了现金流表与利润表之间的区别。这个概念我们在第二门课程的“埃格斯烘焙咖啡”案例研究中已经讨论过。Excel中用于估算转换年及之后年份现金流和利润变化的列,将作为你提出基本商业建议的基础。
分析与决策 🔍
完成基础模型构建后,我们将进入分析阶段。
上一节我们建立了财务模型,本节中我们来看看如何利用其结果做出商业决策。
以下是进行分析的具体步骤:
- 排序与筛选:使用Excel的数据排序功能对利润结果进行排序,并识别出一组盈利能力最强的房产。
- 评估投资与回报:然后,评估转换这组房产需要多少现金投入,并估算这些房产需要多长时间才能收回初始现金投资并实现现金流为正。
- 现金流验证:进行现金流为正的检查,可以基本确认该机会不属于我们在“埃格斯烘焙咖啡”案例中看到的那种“有利润但现金流为负”的危险类型。
敏感性分析 ⚖️
在做出最终建议前,对财务模型进行敏感性分析至关重要。
上一节我们得出了初步的财务预测,本节中我们来看看当基础财务假设发生变化时,这些预测的稳健性如何。
我们将简要探讨对财务模型进行敏感性分析的概念。即当基础财务假设改变时,预测的利润转为亏损、预测的正现金流转为负值的速度有多快。
你需要选择至少一个财务假设,对其进行显著修改,然后在Excel中重新运行你的财务模型。这将为第五周的学习做好准备,届时你将在Tableau中设置一个仪表板,以便观察模型中任何关键财务假设变化所产生的影响。
总结 📝
本节课中我们一起学习了如何为“流域”房产项目构建一个完整的财务分析模型。我们从优化租金收入开始,逐步计算了转换为短期租赁后的现金流和利润变化,通过排序找出了最具盈利潜力的房产组合,并评估了其投资回报。最后,我们引入了敏感性分析的概念,以测试模型在不同假设下的稳健性。掌握这些技能,你将能够为是否进入新市场提供数据驱动的商业建议。

祝你好运。😊
169:区分现金流与损益

在本节课中,我们将学习现金流与会计利润之间的关键区别。我们将通过一个案例研究来探讨,即使企业盈利,也可能出现负现金流的情况,并学习如何在财务分析中分别计算和评估它们。
概述
现金流和利润并非同一概念。企业需要密切关注两者,尤其是在企业可能盈利但仍出现负现金流的状况下,更需格外谨慎。我们将以 Watershed 案例研究为例,评估将房产从长期租赁转为短期租赁所带来的财务影响。
现金流与利润的核心区别
上一节我们概述了区分现金流与利润的重要性。本节中,我们来看看它们在财务报表中的具体体现方式。
在 Watershed 案例中,评估财务影响主要有两个维度:
- 考虑房产完成转换后第一个完整年度(我们称之为第三年)的盈利能力。
- 确定在转换年度(第二年)之初需要多少额外现金来支持转换。
我们建议你在 Excel 中建立自己的财务分析,包含以下四列:
- 第二年的现金流变化
- 第三年的现金流变化
- 第二年的利润变化
- 第三年的利润变化
会计准则的影响
上一节我们介绍了分析框架,本节中我们来深入探讨会计准则如何造成现金流与利润的差异。
会计准则决定了现金流与会计利润之间的大部分差异。特别是,必须应用规则将一项会随时间损耗的生产性资产的成本,分摊到利润表的多个年度中,即使该资产在最初购买时是100%现金支付。
例如,在 Watershed 模型中,如果在第二年年初花费 $30,000 现金购买用于转换的家具和用品,则第二年会产生 -$30,000 的现金流。
但是,如果你购买的物品平均在五年后损耗至需要更换,那么在利润表上,只有 1/5 即 $6,000 的成本会计入第二年的损益。随后的每一年都将计入 $6,000,直到全部 $30,000 折旧完毕或减值为零。
因此,在 Watershed 情景中,你第二年的现金流变化与利润变化之间的差异在于:第二年的利润将比第二年的现金流高出 $24,000(即 $30,000 - $6,000)。
在第三年,额外的 $6,000 折旧额将计入损益,但这并不对应第三年的任何现金支出。因此,第三年的利润将比第三年的现金流低 $6,000。
改变假设的影响
我们了解了基本的折旧计算。那么,如果改变折旧率等假设,结果会如何变化呢?
如果你改变关于转换成本和折旧期限的问题假设,这些数字当然都会改变。
如果 Watershed 的高层管理者决定家具平均每三年需要更换一次,他们可以每年在利润中扣除 $10,000,持续三年。
那么,第二年的利润将比第二年的现金流高出 $20,000(即 $30,000 - $10,000)。同样地,第三年的利润将比第三年的现金流低 $10,000。
实践工具与总结
在你自己建立 Excel 分析之前,我们提供了一个年度现金流和年度利润的电子表格指南,供你练习并熟悉 Watershed 案例研究中的会计计算和各种假设的影响。希望它对你有用。

本节课中,我们一起学习了现金流与会计利润的根本区别,理解了折旧等会计准则如何导致两者在特定时期产生差异。通过 Watershed 案例,我们掌握了如何分别分析和计算现金流与利润的变化,并认识到改变关键假设(如折旧年限)会对财务结果产生直接影响。记住,同时监控现金流和利润对于全面了解企业财务状况至关重要。
170:使用年度现金流与利润计算表 💰

在本节课中,我们将学习如何构建一个年度现金流与利润计算表,这是评估商业决策(如Watershed公司的长期租赁方案)财务影响的关键工具。我们将重点理解现金流与利润之间的核心区别,并学习如何将财务假设整合到一份清晰的报表中。
构建现金流报表 📊
上一节我们讨论了财务评估的基本框架,本节中我们来看看如何具体构建报表。我建议你建立一个类似下图的现金流报表。

以下是构建报表的步骤:
- 第一列数字应反映长期租赁方案下的财务状况。
- 第二列代表转换发生的年份,即第二年。
- 第三列代表第一个稳定状态年份,此时不再有高昂的前期转换成本,即第三年。
- 你可以继续列出第四年及以后的年份,但后续年份的财务结构应与第三年完全相同。
聚焦评估指标 🎯
现在,我们得到了一份针对转换年份和稳定状态年份的现金流报表。正如之前讨论的,我们将以稳定状态年份的盈利能力作为评估Watershed公司商业价值增长的核心指标。这一点在估值相关的视频中已经提及。
你在此处拥有的是从访谈中提取或获得的所有财务假设。以下是完成此问题分析所需的所有假设的完整列表。
理解现金流与利润的关键差异 🔍
我想提请你们注意现金流报表与利润报表之间的一个关键区别,即代表折旧的那一行。
在我们的简化Watershed模型中,正是折旧这一项导致了现金流与利润报表的差异。我们在此假设了五年的使用期。
折旧的计算原理 📉
在现金流报表中,转换年份(第二年)我们有一笔大额的现金支出。但在利润表中,我们将这笔现金支出分摊到一定的折旧年限中。
你可以这样理解直线折旧法:我们将初始价值(此处为30,000)分为五等份,每年减少6,000,直至为零。
其背后的理论是:如果我们将运营业务所需的30,000美元全部计入第一年,会显得我们第一年的经营状况很差,而后续年份却可能表现优异。实际上,如果你通过制造产品或提供服务而损耗资本设备,你应该将该项目的成本分摊到使用它的整个期间。

本节课中,我们一起学习了如何设置用于商业分析的年度现金流与利润计算表。我们掌握了构建报表的步骤,明确了以稳定状态盈利能力为核心评估指标,并深入理解了折旧如何造成现金流与利润的关键差异。通过将财务假设系统化地组织到报表中,我们为后续的财务分析与商业决策奠定了坚实基础。
171:使用Tableau进行敏感性分析 🎯

在本节课中,我们将学习如何使用Tableau进行敏感性分析,以测试财务模型的可靠性。我们将探讨如何通过可视化手段,动态地观察模型假设变化对结果的影响,从而增强决策的信心。
课程进行至此,你已经完成了分析将流域房产转为短期租赁潜在盈利能力的模型。这项工作非常出色。你应当为此感到自豪。达到这一步需要经过许多细致的思考步骤。因此,你绝对应该庆祝这个里程碑。
庆祝之后,请准备好再次投入学习。因为在接下来的几周里,我们将使用Tableau和数据可视化来最大化你模型的影响力。
在之前的“使用Tableau进行数据可视化与沟通”课程中,我们深入探讨了数据可视化如何成为一种高效的方法。首先,它能帮助你确定哪些因素对纳入计算模型或分析至关重要。其次,它能帮助你更有说服力地传达模型或分析结果的重要性。
数据可视化还有一个用途,我在之前的课程中提到过,但直到这个顶点项目才有机会充分强调:数据可视化也可以用来测试计算模型的可靠性。
还记得在“使用Tableau进行数据可视化与沟通”课程中,我谈到如何对你的故事进行压力测试,并警惕逻辑谬误吗?我们讨论了当你发现数据中某个效应对你的业务很重要时,最好确保能在不同的数据集中复现该效应,或者至少观察该效应在你数据的不同子集中是否持续存在。
这些思路的变体同样可以应用于预测模型。你想知道的是,假设条件对你的模型结果,以及由此得出的关于你或公司应如何行事的结论,影响有多大。换句话说,如果在模型中增加或减少一个变量会怎样?如果改变财务假设的实际值(例如某物的成本或使用寿命)会怎样?
如果改变这些变量或假设最终不会改变你对数据分析结果的解读,那么你的模型就是稳健的,你应该有信心根据模型结果决定行动方案。反之,如果模型中变量或假设的微小变化就会改变你的分析结论,那么在根据数据分析提出建议或预测时,你就应该谨慎。你可能需要做更多研究,以确保输入模型的变量和值能更准确地反映现实。
在商业世界中,以这种方式测试模型的可靠性被称为敏感性分析。财务分析师尤其想知道,如果你的财务假设被证明是错误的,关于如何推进的最佳决策是否会改变。他们还想知道,与其他变量相比,某个变量对模型结果的影响有多大。
传统上,人们使用Excel中的表格进行敏感性分析。然而,本周我们将学习如何使用Tableau以可视化、甚至更动态的方式来测试模型的假设。
你将创建一个仪表板,根据一系列系统性的不同假设集,报告你过去几周在Excel中设计的财务模型的动态结果。你的策略是,为模型中做出的每个财务假设在Tableau中创建一个参数。你将使用引用这些参数的计算来制作可视化图表。
虽然初期设置可能需要一些时间,但完成后,你将能够通过简单地更改仪表板上的相应参数,立即测试某个假设对模型的影响。此外,你将能够同时看到改变多个假设的效果。在Excel中进行同样的分析将花费很长时间,并且你需要为每个要测试的假设设置不同的表格。正如你将看到的,在Tableau中操作要愉快得多。通过使用仪表板,你可以在同一位置同时查看数据的多个方面。
在Tableau中创建仪表板以测试假设变化对财务模型的影响,主要有两个不同的原因。
第一个原因是让你作为分析师,能够弄清楚你对模型的信任程度,以及基于模型提出建议时应有的信心水平。为此目的制作仪表板时,你应该根据你认为最有用、最快捷的图表来选择,并且图表格式是否完美并不重要。
第二个原因则是为了让你的受众中的决策者能够使用仪表板,亲眼看到改变模型中的假设如何影响其结果。在这种情况下,仪表板需要合理地进行格式化。你需要选择受众习惯使用的图表或可视化形式,并且需要解释每个图表显示的内容。
本周,我们希望你将重点放在第一个目的上。你本周的目标应该是将模型导入Tableau,并以此确定你的假设如何影响模型和结论。专注于确保计算正确,但不必过分担心图表或仪表板的具体外观。我们已安排下周让你专注于格式化仪表板,使其对流域公司高管更具吸引力,并添加任何有帮助的新图表(这些图表对你的敏感性分析并非必需)。在你完成基础工作并了解敏感性分析结果后,下周再处理图表的设计和格式会容易得多,因为那时你会知道希望受众最关注仪表板的哪些部分。
为了制作你的仪表板,你将需要用到在“使用Tableau进行数据可视化与沟通”课程中学到的几乎所有知识。
请确保复习如何制作条形图、表格、箱线图、地图、仪表板和Tableau故事。同时,确保你记得如何使用标记卡、筛选器架,以及如何创建参数和计算。如果在任何时候你需要关于如何做这些事情的提醒,请回顾“使用Tableau进行数据可视化与沟通”的课程材料或在线查找资料,因为我们不会在这里复习大部分内容。相反,本课程包含的新材料将重点向你展示几个新的Tableau技巧,这些技巧对你的流域项目以及现实生活中的公平分析项目应该很有用。
在开始之前,请记住这是一次学习体验。在没有明确指示的情况下从头开始制作仪表板是具有挑战性的。所以,如果你有时遇到困难,请不要担心,准备好花些时间将模型导入Tableau。
你需要多久就用多久,当不知道如何做某事时不要放弃。相反,尝试享受尝试不同选项和培养解决问题技能的过程。独立处理所有细节将有助于你获得在实际工作情境中使用这些技能所需的信心,一旦你弄清楚了如何完成所有想做的事情,你会感觉非常棒。我向你保证,你的时间和努力是值得的。
当然,一如既往,我们非常欢迎你使用讨论论坛提问并互相帮助。你们都在共同学习,并且拥有很棒的想法,如果你们能彼此分享,那将是非常美好的事情。

那么,让我们开始吧。
172:分析师专用仪表板 📊

在本节课中,我们将学习如何构建一个用于测试财务模型假设的分析师专用仪表板。我们将探讨仪表板的设计目的、核心组件、可视化技巧,并理解它与演示文稿的区别。
仪表板概述与核心原则
首先,需要明确仪表板的核心用途。仪表板旨在将所有必要信息集中展示,以便快速、高效地做出决策。这意味着仪表板上会包含大量信息,布局可能较为紧凑。
仪表板与演示文稿有本质区别。你绝不会在演示文稿的一页幻灯片上放置整个仪表板,因为观众会无所适从,你无法控制他们的视线焦点。此类仪表板仅用于分析研究,无论是供自己分析,还是供他人审查模型结果。
构建仪表板通常有两个目的:一是说服自己模型的可靠性,二是说服他人模型的可靠性。因此,在向他人展示前,务必了解对方偏好的信息呈现方式。
仪表板结构解析
以下是专为分析师自己设计的仪表板布局,我们将逐一解析其各个部分。
参数与假设区域
在屏幕的这一区域,集中了模型的所有财务假设参数。每个假设都有一个独立的参数输入框,可以在此进行调整。
公式/代码表示参数:
参数值 = 用户输入(例如:折旧年限=3)
核心决策指标
接下来是用于决策的核心指标。这里使用条形图展示了八项关键指标,这些指标分为四组,每组包含两个条形。
以下是这四组指标:
- 盈利房产的年现金流(转换年):此条形图展示所有被认为盈利的房产(基于设定的盈利阈值,例如$6000)在转换年份产生的总现金流。
- 盈利房产的年现金流(转换年后):此条形图展示所有盈利房产在首个转换年份之后所有年份的总现金流。
- 盈利房产的利润(转换年):此条形图展示盈利房产在转换年份的总利润。
- 盈利房产的利润(转换年后):此条形图展示盈利房产在转换年份之后的总利润。
在每个条形图中,都包含两种条形:
- 深蓝色条形(内侧):代表基于模型原始假设计算出的盈利房产总利润或现金流。
- 浅蓝色条形(外侧):代表根据屏幕左侧当前输入的参数计算出的利润或现金流。
关键交互:当更改任何参数时,深蓝色条形保持不变,而浅蓝色条形会相应变化。这直观地展示了参数变动相对于原始基准的影响。
此外,该区域还显示了基于当前参数,转换所有盈利房产所需的总现金。仪表板中除深蓝色条形外的所有部分,都基于当前输入的参数进行计算。
数据详情的可视化
上一节我们介绍了聚合数据的展示方式,本节中我们来看看个体层面的数据是如何呈现的。
屏幕下半部分展示了未聚合的个体盈利房产数据。
箱线图与直方图
屏幕左上方的图表是一个箱线图,每个点代表一处房产在转换为短期租赁后(考虑转换年)可预期的利润。将鼠标悬停在数据点上,可以查看该房产的详细数据。
下方的图表是一个直方图。直方图将X轴上的所有数值划分到不同的区间(例如,每$10,000为一个区间),然后统计每个区间内数据点的数量。
公式/代码表示直方图区间:
区间 = [下限, 上限),例如:[60000, 70000)
计数 = 满足 下限 ≤ 利润值 < 上限 的数据点数量
例如,根据示例模型,大多数房产的利润集中在$10,000到$30,000的范围内,同时存在少数高利润的异常值,这些是需要重点考虑转换的房产。
地理位置分布图
屏幕右侧的地图展示了每处个体房产的地理位置。这里使用了一种称为“抖动”的技术。由于数据集中许多数据点地理位置相同,若使用普通地图,它们会完全重叠。“抖动”技术将这些来自同一地理位置的数据点,均匀地分布在该位置周围的一个圆形区域内。
代码逻辑表示抖动:
# 伪代码:为每个相同坐标的点添加微小随机偏移
for each group of points with identical coordinates:for each point in the group:point.x += random(-offset, +offset)point.y += random(-offset, +offset)
交互式高亮功能
此仪表板的一个实用功能是交互式高亮:
- 点击地图上的一个数据点,它会同时在箱线图和直方图中被高亮显示。
- 同样,点击箱线图或直方图上的数据点,也会在地图和另一个图表中高亮对应部分。
- 要取消高亮,只需再次点击该数据点即可。
- 将鼠标悬停在任何数据点上,都可以看到其具体的数值。
动态更新与总结

最后,仪表板实现了全局联动更新。当更改参数时,不仅图表数据会变,连仪表板的标题也会动态更新,例如显示当前参数下的“盈利房产总数”。

本节课中我们一起学习了如何构建一个功能全面的分析师仪表板。我们明确了其用于分析的核心定位,剖析了包含参数区、核心指标、个体数据可视化(箱线图、直方图、地图)的结构布局,并体验了交互式高亮和动态更新等关键功能。记住,仪表板的设计应服务于分析和验证模型本身,你可以根据自身需求灵活调整其视觉呈现。在接下来的课程中,你将看到为不同受众修改后的仪表板版本。
173:面向财务受众的仪表板调整 📊

在本节课中,我们将学习如何根据特定受众(尤其是财务背景的受众)的偏好,调整和优化仪表板的设计与呈现方式。
在上一节视频中,我展示了为自己制作的仪表板,用于分析流域模型中的参数是否会影响关于是否应将物业转为短期租赁的决策。本节中,我们将看看如何根据受众的偏好,对该仪表板进行微调。
现在,我们来打开这个仪表板。这是我为自己制作的版本。
在为不同受众制作的仪表板中,大部分内容将保持不变,但部分图表会进行调整。我咨询的一些人告诉我,他们不习惯查看直方图、散点图或箱线图。这种情况实际上很常见,尤其是在金融领域工作的人,他们非常习惯于查看电子表格和列表,对于不熟悉的可视化图表,他们很难从中提取信息。
因此,他们要求以类似Excel电子表格的形式呈现这些信息,我已将其以列表形式放在这里。所以,我没有使用散点图和直方图来展示每个盈利物业的信息,而是将这些信息放入一个表格中。该表格可以滚动查看,并且会根据以下这些框中的参数变化而更新。
以下是表格中包含的信息列:
- 物业ID
- 州
- 城市
- 类型
- 卧室数量
- 现金流
- 转换年份
- 转换年份后的利润(如果你想单独对这些值进行排序,尽管排序结果会相同)
对于某些类型的受众成员来说,这种形式可能更舒适。
我想花一点时间说明,即使你的受众更习惯于查看这样的电子表格或列表,也永远不要(或至少几乎不要)在实际的演示文稿或幻灯片中放入这样的列表或电子表格。他们几乎肯定无法阅读这些信息,而且内容太多,无法有效地引导他们理解整个故事。如果他们坚持要列表,你可以将其放在这样的仪表板中,或者放在白皮书里,通过电子邮件发送给他们,但不要放在演示文稿中。请务必记住这一点。
我还想向你展示两个仪表板中都有的另一个功能,我在上一个视频中没有指出,就是这里的这个小功能。这是一个有时会很有用的小技巧。如果你像我一样健忘,忘记了这些框中应该输入什么值,或者忘记了原始模型中使用的原始假设值,该怎么办?
我在这里制作了这个小备忘单,允许你将鼠标悬停在这个圆点上,以获取你在模型中做出的所有原始假设。这实际上是一个非常容易实现的技巧,我会向你展示如何操作。你基本上是在工作表上做一个标记,然后编辑其工具提示,填入你想要的信息。有些人会用它来给受众提供指示,他们会在角落制作类似这样的东西,并写上“点击或悬停圆点查看说明”。这样,就不必在这里放置大段文字来说明如何使用仪表板。
我将向你提供说明,无论是书面说明还是视频,教你如何制作这些条形图、抖动地图。我也会提醒你如何制作这些表格,因为它们的制作方式有些反直觉,Tableau 最初并非为此设计。我还会提供关于如何制作这些直方图的视频或书面说明。你会发现,除了抖动地图有点棘手外,其他都相对容易制作。
希望这能给你一些灵感,思考你想在自己的仪表板中放入什么内容。这些可点击的内容展示起来既美观又简单,但我相信你一定在想:我到底该如何开始?
我想给你一些建议。首先,盯着这个仪表板看一会儿,试着想象一下:要在 Tableau 中单独创建这些图表中的每一个,你需要些什么?当你仔细观察时,你会开始意识到几件事。
第一,这些条形或数据点中的每一个都必须来自某种变量。这意味着在 Tableau 中,必须有某种度量或维度来对应这些度量值。这意味着你应该考虑在你的 Tableau 工作簿中创建列。
以下是需要创建的列:
- 仅针对转换年份的年度现金流
- 仅针对转换后年份的年度现金流
- 仅针对转换年份的年度利润
- 仅针对转换后年份的年度利润
但是,你还必须使用两组不同的参数来创建这些列,因为这些固定不动的条形意味着它们使用的输入参数与这些可变的条形不同。所以,你需要创建两组参数。
以下是需要创建的参数组:
- 一组用于固定条形(原始参数)
- 一组用于实现参数动态变化
再强调一次,你需要为每一个条形单独创建一个度量或维度,并且必须定义该度量或维度(很可能是计算字段)是使用固定的参数集还是动态的参数集。这意味着你还必须制作两个参数集,一个用于固定值,一个用于动态值。
我想给你的最后一个提示是:你在一个图表中展示了两个不同的聚合值,而每个聚合值实际上聚合了不同数量的物业(因为基于不同的阈值),这意味着你将无法仅基于筛选器来定义这些聚合。
因为如果你只有一个计算字段,它只会使用固定参数或可变参数中的一种,而无法同时使用两者。或者你也可以做到,但那将是一个更复杂的计算,你必须思考如何实现。所以,最简单的方法是创建一个计算字段(而不是筛选器),来精确指定哪些物业应该被聚合以生成这些固定条形和可变条形。我也会给你更多关于具体如何操作的提示。
考虑到这些提示,以下是我建议你进行的步骤。

我建议你选择一个蓝色条形图,看看能否在 Tableau 中重新创建它。你要做的是,看看能否让你的蓝色条形图得到与 Excel 电子表格相同的结果。当你在 Tableau 中将所有利润或现金流(取决于你选择的指标)相加时,得到的结果是否与 Excel 电子表格中所有盈利物业的利润或现金流总和相同?
要做到这一点,你需要从 Excel 导入数据。我建议你使用最原始的数据。因为你应该做的是导入数据,然后为你在 Excel 电子表格中创建的每一列都制作一个计算字段。如果这样做,你应该能得到相同的结果。一旦达到这一步,你就能看到制作所有其他可视化图表是多么容易。
所以,尝试一下吧。当你得到最终答案后,请看下一个视频。祝你好运。
本节课中,我们一起学习了如何根据财务受众的习惯调整仪表板,将图表信息转换为更易读的列表形式,并了解了在演示中合理呈现数据的重要性。我们还探讨了在 Tableau 中重建此类分析仪表板的核心思路,包括创建必要的计算字段、参数集,以及从原始数据开始逐步构建可视化组件的方法。
174:在 Tableau 中创建柱中柱图表 📊

在本节中,我们将学习如何在 Tableau 中创建柱中柱图表。这种图表常用于在同一个图形中对比基于不同参数集(例如原始假设与动态假设)的计算结果。
上一节我们成功将 Excel 模型导入 Tableau。本节中,我们来看看如何利用这些数据创建直观的对比图表。
准备工作
在开始制作图表前,需要确保数据已正确设置。
以下是创建柱中柱图表所需的数据结构:
- 固定值参数集:代表模型中原始的、不变的假设。
- 变量值参数集:代表用户可以通过参数面板动态调整的假设。
- 引用固定参数的度量集:基于固定参数计算出的指标(如利润)。
- 引用变量参数的度量集:基于变量参数计算出的指标。
创建核心计算字段
创建图表的第一步是构建用于筛选和聚合数据的计算字段。
1. 创建阈值参数
首先,需要创建两个参数,分别作为判断“盈利”的阈值。
- 固定模型盈利阈值:用于基于原始假设的模型。
- 变量模型盈利阈值:用于基于新假设的动态模型。
2. 创建二元判断字段
接下来,创建两个计算字段,用于判断每个房产在对应模型下是否盈利。它们将输出 1(盈利)或 0(不盈利)。
固定模型盈利判断 公式逻辑如下:
IF [基于固定参数的利润] > [固定模型盈利阈值] THEN 1 ELSE 0 END
变量模型盈利判断 公式逻辑类似,但引用变量参数和阈值:
IF [基于变量参数的利润] > [变量模型盈利阈值] THEN 1 ELSE 0 END
3. 创建条件聚合字段
最后,创建两个用于图表展示的度量。它们只聚合那些被判断为盈利的房产的利润值。
固定模型利润(仅盈利) 公式逻辑如下:
IF [固定模型盈利判断] = 1 THEN [基于固定参数的利润] END
此字段仅当房产在固定模型下盈利时,才输出利润值,否则为 NULL。
变量模型利润(仅盈利) 公式逻辑如下:
IF [变量模型盈利判断] = 1 THEN [基于变量参数的利润] END
此字段仅当房产在变量模型下盈利时,才输出利润值。
通过以上步骤,我们得到了两个独立的度量,它们分别汇总了在不同参数假设下达到盈利阈值的房产总利润。这是实现柱中柱对比可视化的核心。
构建柱中柱图表
现在,我们开始将计算出的度量转化为柱中柱图表。
组合两个度量
- 将 固定模型利润(仅盈利) 度量拖入行功能区。
- 将 变量模型利润(仅盈利) 度量也拖入行功能区,放在第一个度量的右侧。此时,两个度量会显示为上下排列的两个独立条形图。
- 点击最右侧度量胶囊的下拉菜单,选择 双轴。Tableau 会将两个度量合并到同一个图形区域,并使用两个独立的 Y 轴。
调整标记类型与样式
- 在“标记”卡中,确保视图类型为 条形图。
- 点击“标记”卡顶部的下拉列表,可以选择 全部、固定模型利润 或 变量模型利润 来分别设置每个度量的样式。
- 选择 变量模型利润 面板。可以调整其颜色和大小。通常,我们希望外层的柱子(变量模型)更大或颜色更突出。
- 选择 固定模型利润 面板。调整其大小,使其略小于外层柱子。还可以点击“标记”卡上的 前景 按钮,确保内层柱子显示在前端。
同步坐标轴与清理视图
- 右键单击任意一个 Y 轴,选择 同步轴。这确保两个度量使用相同刻度的 Y 轴,使对比更准确。
- 若要隐藏多余的轴标题以简化视图,可以右键单击轴并取消勾选 显示标题,或者点击对应度量胶囊的下拉菜单取消勾选 显示标题。
高级格式设置
为了使图表更专业并适应仪表板布局,可以进行以下格式调整。
调整数字格式
右键单击 Y 轴,选择 格式。在格式窗格的 刻度 > 数字 区域,可以设置数字显示为货币、添加千分位分隔符、调整小数位数,甚至将单位设置为“千(K)”或“百万(M)”。
自定义坐标轴范围
在包含多个类似图表的仪表板中,保持所有图表的 Y 轴范围一致非常重要。
- 双击 Y 轴。
- 在弹出窗口中,选择 固定 范围。
- 手动输入 最小值 和 最大值(例如,-500,000 到 3,000,000)。
移除网格线和边框
- 点击菜单栏的 格式 > 边框。
- 在格式窗格中,点击代表 行 或 列分隔符 的图标(通常是一个小网格图案)。
- 将 行分隔符 和 列分隔符 的线条设置为 无。这将移除图表内部的网格线,使仪表板看起来更简洁。
在仪表板中整合多个图表
通常,一个仪表板会包含多个展示不同指标(如转换年现金流、转换后利润等)的柱中柱图表。
以下是整合建议:
- 为每个指标(如现金流、利润)单独创建一个工作表,并按照上述步骤制作柱中柱图。
- 在新建的 仪表板 中,将这些工作表作为 浮动对象 添加进来。这样可以自由地移动和排列每个图表,确保布局整齐美观。
- 确保所有图表的 Y 轴范围已按前述步骤设置为相同的固定值。

本节课中我们一起学习了在 Tableau 中创建柱中柱图表的完整流程。我们从准备数据和创建核心计算字段开始,逐步构建出对比图表,并学习了如何调整样式、同步坐标轴以及进行高级格式设置,最后探讨了在仪表板中整合多个此类图表的最佳实践。掌握这些技巧后,你将能有效地在 Tableau 中可视化并对比基于不同商业假设的分析结果。
175:Tableau 中的直方图 📊

在本节课中,我们将要学习如何在 Tableau 中创建直方图。直方图是一种强大的数据可视化工具,它能帮助我们直观地理解数据集中数值的分布情况。我们将从直方图的基本概念开始,逐步演示在 Tableau 中创建和自定义直方图的步骤。
什么是直方图?
上一节我们介绍了课程目标,本节中我们来看看直方图的核心定义。直方图是一种特殊的条形图,它能让你轻松地查看数据列中数值的分布情况。
以下是其工作原理:
- 划分区间:首先,将数据可能取值的范围划分为若干个“区间”。这些区间通常宽度相同。例如,如果你的数据最小值为3,最大值为96,你可能希望将数据划分为10个区间,每个区间宽度为10个单位,这样X轴就涵盖了1到100的可能值。
- 计数:接着,统计每个区间内包含的数据点数量。例如,如果有三个数据点分别是13、16和18,它们都将归入“11到20”这个区间。如果有两个数据点分别是42和47,它们将归入“41到50”这个区间。
- 绘图:在将所有数据点放入对应的区间后,直方图将区间放在X轴上,将每个区间内的数据点数量放在Y轴上。
最终,你会得到类似这样的图表。从这张直方图中,你可以看到数据集中的大部分数据都集中在下方的“21到30”这个区间内。
将数据可视化为直方图还能让你轻松识别极端值。极端值总是位于直方图远离其他数据的外侧边缘。
关于直方图,有一点需要注意:你必须留意坐标轴标签的含义,因为业界对此没有统一的约定。
- 有时标签是明确的,会给出每个区间的完整数值范围,但这会占用大量空间,因此并不常见。
- 更常见的是,程序会用每个区间的中值或中间值来标记区间。这样标记的直方图看起来是这样的。
- 偶尔,程序会有不同的命名系统。例如,Tableau 使用每个区间数值范围的下限来标记其区间,并且这个数字是包含在内的。因此,这个直方图在 Tableau 中会像这样标记,标签“20”意味着该区间包含大于或等于20但小于30的数字。
我经常制作直方图,发现它们对于总结原始数据极其有用。但你应该意识到,商业领域的许多人并不习惯看直方图。因此,在考虑在演示中使用它们之前,你可能需要先了解你的受众类型。如果你确实想使用它们,Tableau 让这一切变得非常简单。
在 Tableau 中创建直方图
现在我们已经了解了直方图是什么,让我们在 Tableau 中制作一些直方图。这通常非常简单。
一种方法是,只需将你感兴趣的度量值拖到“行”功能区,然后在“智能显示”卡片上点击直方图图标。
你可以看到,它会在下方创建好所有的区间,并自动计算每个区间内有多少个数值。
我选择这个变量是为了给你一个提示:当你进行自己的计算时,我创建的这个度量值是一个计算字段,它只报告达到盈利阈值的属性,因此有很多属性被转换成了空值,这显示在这个区间里。你可以通过右键单击该区间,然后点击“排除”来在直方图中移除它。
这样你就得到了最终的直方图。如果你还想标记进入这些区间的每个属性,你可以使用“颜色”功能区。我创建了一个结合了“卧室数”和“类型”的变量。作为如何操作的提醒,你可以同时选中这两个字段,然后转到“创建”菜单,选择“组合字段”。我们在 Tableau 课程中学过如何操作,如果你想让标签更简单,可以在这里再做一次。如果你创建了这个组合字段,那么只需将该变量拖到“颜色”功能区上。
现在你将得到之前看到的直方图。我想向你展示一个可能对你有用的功能。
Tableau 制作这些直方图的方式是:它会获取你的度量值,并自动将其划分为区间,但它实际上会保存一个告诉你这些区间是什么的变量。因此,用于标记这个坐标轴的变量现在实际上位于“维度”窗格中。如果你点击它,可以对其进行编辑,并更改区间的大小。例如,如果我们愿意,可以将其从 10,000 改为 5,000,现在你将看到这里的区间数量增加了一倍。你可以根据自己的直方图需求随意调整。
如果出于某种原因,你不想使用“智能显示”卡片,另一种方法是:先清空工作表,然后点击你的一个度量值,点击下拉菜单,转到“创建”,然后选择“数据桶”。它会为你创建这个变量,然后你只需将这个变量拖到“列”功能区,将“记录数”拖到“行”功能区,就能再次得到你的直方图。当然,你也可以再次将这个变量拖到“颜色”功能区上。

做得好!我希望你会发现这对你的仪表板制作很有用。
总结

本节课中我们一起学习了直方图的核心概念及其在 Tableau 中的创建方法。我们了解到直方图通过将数据划分区间并计数来展示分布,是识别数据模式和极端值的有效工具。在 Tableau 中,我们可以通过“智能显示”卡片快速生成直方图,也可以通过“创建数据桶”功能手动构建,并能灵活地调整区间大小、添加颜色编码以丰富信息层次。掌握这些技巧将帮助你更直观地分析和呈现数据。
176:在 Tableau 中创建表格 📊

在本节课中,我们将学习如何在 Tableau 中创建和格式化表格。虽然 Tableau 的核心是数据可视化,但商业世界常常需要表格来展示数据。我们将介绍两种创建表格的方法,并学习如何调整表格的格式,使其更符合你的需求。

上一节我们介绍了条形图和直方图的制作,本节中我们来看看如何创建表格。你应该对 Tableau 的基础操作有所了解,但请注意,Tableau 并非专为制作表格而设计,因此其界面可能不够直观。不过,只要掌握正确的方法,创建表格将变得非常简单。

快速创建表格的方法

最快捷的创建表格方法是直接双击所需的维度和度量。
以下是具体步骤:
- 双击你想要包含在表格中的第一个维度,例如
Property ID。 - 继续双击其他维度,如
Zip Code、State、City。 - 双击你想要包含的度量,例如
Cash Flow、Year of Conversion。
完成上述步骤后,一个基本的表格就会自动生成。
格式化表格选项
创建表格后,你可以对其进行多种格式化调整。
以下是可用的格式化选项:
- 隐藏/显示标题:右键点击列标题,选择“显示标题”来隐藏或显示它。
- 修改标题别名:右键点击标题,选择“编辑别名”,可以将其重命名为更易理解的名称,如将
Cash Flow改为“现金流”。 - 调整数字格式:右键点击度量值,选择“格式”,在“数字”选项中可设置为货币、调整小数位数或单位(如千位)。
- 修改外观:在“格式”窗格中,可以更改字体、移除行/列之间的边框线,或取消行的交替背景色(行条带化)。
备用创建方法(使用“度量名称”和“度量值”)
如果快速双击法不适用,你可以使用 Tableau 自动生成的 Measure Names(度量名称)和 Measure Values(度量值)来创建表格。这种方法稍复杂,但提供了更多控制。
以下是操作步骤:
- 将
Measure Names拖到“筛选器”架上,取消选择“全部”,然后仅勾选你希望在表格中显示的特定度量。 - 将你需要的所有维度(如
Property ID、State)拖到行功能区。 - 将
Measure Names拖到列功能区。 - 将
Measure Values拖到“标记”卡的“文本”属性上(点击“标记”卡上的“文本”下拉菜单选择)。
创建动态标题
为了让你的仪表板更具交互性,可以为表格标题添加动态计数,例如显示当前列表中“盈利物业”的数量。
这需要创建一个表计算,并将其插入标题中。

核心是使用以下公式创建一个名为(例如)Num Rows 的计算字段:
TOTAL(COUNT([Property ID]))
关键点:TOTAL 函数确保计算的是整个分区(当前视图)的总行数,而不是每行的计数。创建后,需在计算字段的“默认表计算”中正确设置计算依据(例如,按特定维度汇总)。
创建好计算字段后,即可将其插入标题:
- 双击图表标题进入编辑状态。
- 点击“插入”按钮,从列表中选择你创建的计算字段(如
Num Rows)。 - 插入后,该字段名会被特殊符号包围,表示它是一个动态值,会随着视图数据变化而自动更新。
本节课中我们一起学习了在 Tableau 中创建表格的两种主要方法:快速的直接双击法以及更可控的“度量名称/度量值”法。我们还探讨了如何对表格进行格式化,以及如何通过创建表计算来实现动态标题,从而增强仪表板的交互性和信息量。掌握这些技巧后,你就能高效地制作出满足商业报告需求的表格。
177:为决策者准备仪表板 📊

在本节课中,我们将学习如何将分析结果转化为可供决策者使用的仪表板。我们将探讨仪表板的设计原则、Tableau的局限性,并完成从模型评估到最终呈现的完整流程。
恭喜你在Tableau中完成了第一次敏感性分析。现在,你应该已经使用参数和计算,在Tableau仪表板中复现了Excel分水岭模型的结果。
在此过程中,你可能已经注意到,完全可以在Tableau中开发整个预测和财务模型,从而跳过Excel。当你在自己的公司接手新项目时,应该自行决定在Excel或Tableau中开发模型哪种对你更有用。
关于这一点,需要确保你知道,尽管Tableau软件本身没有内置等同于Excel“规划求解”的功能,但Tableau可以通过与统计软件R的集成来实现相同的能力。Tableau的设置允许你将任何在R中能完成的工作,在Tableau中进行可视化。因此,你可以在R中运行自己定制的前沿统计模型或优化函数,并将方程的部分内容传递到Tableau中,制作一个仪表板,以帮助你可视化改变方程各部分所产生的影响。本专项课程不会详细讲解Tableau与R的集成,但在课程资源中提供了一些链接,供你自行探索可能性。目前,只需了解由于与R的集成,Tableau实际上在预测和数据科学能力方面比Excel复杂得多。只是第一次设置分析时会稍微麻烦一些。
本周,你需要完成使用仪表板评估模型可靠性的工作,然后将本周剩余时间专注于设计和格式化仪表板,使其准备好与分水岭公司高管分享。
你将首先再制作一个可视化图表,即我上周演示的拟合地图。然后,如果尚未完成,请制作一个仪表板的初稿,使你能够研究改变假设对模型输出的影响。系统地改变你的假设,并尝试找出哪些假设对你的模型结果影响最大。当你修改假设时,模型结果变化有多大?这些变化是否会影响你的建议?使用你的仪表板来确定给分水岭公司高管的最终建议:他们是否应该进入短期租赁市场?如果应该,选择哪些房产?一旦确定了建议,就用本周剩余时间设计和格式化一个仪表板,向分水岭公司高管展示你的模型如何支持你的建议,以及假设的变化将如何影响你的建议。
需要提醒你,为外部受众费力地格式化仪表板,会让你亲身体验到当前数据可视化领域的两个局限性。
以下是第一个局限性:
- 尽管仪表板很受欢迎,但它们通常是非常差的数据意义传达媒介。
- 它们倾向于在非常小的空间里塞入过多信息,因此很难设计出能清晰引导受众视线路径的布局。
- 在我们找到更富创意的方式来高效展示大量详细信息之前,你常常需要为了容纳仪表板中必须包含的信息量而牺牲叙事性。
- 当你为自己制作仪表板时,这没什么大不了的,因为你知道该关注什么。但当你试图使用仪表板向受众传达信息时,这会产生更重要的影响。顺便说一下,这也是Tableau提出“故事点”想法的部分原因。Tableau故事正是为了克服拥挤的单个仪表板的局限性而做的努力。
上一节我们介绍了仪表板在信息传达上的局限性,本节中我们来看看第二个局限性。
你将体会到的第二个局限性是,尽管Tableau在允许你快速高效地创建图表方面非常出色,但在允许你以完全想要的方式格式化这些图表方面,它有时仍然力不从心。有一些功能,直到你尝试在有限空间内制作仪表板时,才会发现软件中缺失了。这些功能包括诸如能够按照你想要的方式调整标题或列标题的大小。虽然通常可以在Tableau社区网站上找到解决这些问题的变通方法,但这些变通方法可能很繁琐,当Tableau的其他部分都如此直观时,这一点很难不被注意到。因此,本周你将看到Tableau有许多可以改进的领域。当你发现一个你非常希望Tableau能实现的缺失功能时,我建议你在Tableau社区网站的“创意”板块发布它,以便开发人员了解对该功能的需求。
当然,即使你发现制作仪表板的某些方面并不理想,到本周末,你也会体会到仪表板对于帮助分析师和企业做出决策是多么有用。没有什么比能够在一个地方看到分析的所有重要结果更好了。😊

无论你身处哪个领域,制作仪表板的能力都是分析师一项非常棒的技能。所以,请享受这最后阶段的仪表板制作,并记得查看我们随课程材料附带的视频和链接,它们会在此过程中帮助你。😊

本节课中我们一起学习了如何为决策者准备Tableau仪表板。我们回顾了利用仪表板进行模型评估和敏感性分析的过程,探讨了仪表板在信息传达和格式定制方面的局限性,并明确了最终交付物的目标:一个能清晰展示分析结果、支持建议并说明假设影响的格式化仪表板。掌握仪表板制作技能对任何领域的分析师都至关重要。
178:Tableau 中的抖动地图 🗺️

在本节中,我们将学习如何在 Tableau 中创建“抖动地图”。这种地图技术用于解决地理数据点重叠的问题,通过将位于同一地理位置的数据点分散在一个圆形区域内,从而清晰展示每个数据点的详细信息。
概述
上一节我们介绍了地图可视化的基础。本节中,我们将深入探讨一种高级技巧——抖动地图。当多个数据点共享完全相同的地理坐标时,标准地图会将它们重叠显示为一个点,这限制了信息的可读性。抖动地图通过算法将这些重叠的点分散开来,同时保持它们与原始地理位置的关联,从而解决这个问题。
抖动地图的原理与参数
抖动地图的核心思想是:识别所有具有相同经纬度的数据点,将它们视为一个“簇”,然后将这个簇中的点均匀地分布在一个以原始坐标为中心的圆形区域内。这通过两个关键参数来控制。
以下是控制抖动效果的两个主要参数:
-
扩散因子:此参数定义了圆形区域的半径。公式可以理解为:
新坐标 = 原始坐标 + 随机偏移量。其中,随机偏移量的最大幅度由扩散因子控制。- 值增大:圆形区域变大,点更分散。
- 值减小:圆形区域变小,点更密集。
-
扩散旋转:此参数控制圆形区域内点的起始分布角度。改变它会使整个点簇围绕中心旋转,但通常对解读数据影响较小。
关键步骤与常见难点
理解了基本原理后,我们来看看创建过程中的两个关键步骤,这也是初学者最容易遇到问题的地方。
难点一:在计算字段中使用经纬度
Tableau 自动生成用于地图的经纬度字段无法直接在计算字段中被引用。为了解决这个问题,你需要一个“变通方案”。
操作步骤如下:
- 首先,创建一个显示所有所需地理点的标准地图。
- 在该地图上右键点击,选择“查看数据”。
- 将显示的数据导出。此时,你获得的是实际的、可用的经纬度数值。
- 将这些导出的数据作为新数据源,通过数据混合的方式与主数据源连接。这样,你就能在计算字段中使用这些“真实”的经纬度值来创建抖动偏移计算。
难点二:理解与设置表计算
抖动地图的实现依赖于大量的表计算。表计算的特点在于,它的运算结果取决于当前视图(工作表)中具体有哪些数据,而不是整个数据源。这类似于 SQL 中的子查询。
关键注意事项:
- 每个包含表计算的计算字段,都需要通过下拉菜单选择“编辑表计算”来明确指定计算方式。
- 在“编辑表计算”对话框中,你需要为计算字段内的每一个组成部分正确设置“分区”和“寻址”选项。建议使用“高级”选项进行更精确的控制。
- 一个常见的错误是只设置了最外层计算,而忽略了内嵌的计算。如果地图显示异常,很可能是这里的设置出了问题。
- 请记住,每当你向视图中添加新的维度或度量时,都可能需要重新检查和调整所有表计算的设置,因为新的字段改变了视图的上下文。
美化工具提示
除了地图本身,你还可以优化用户交互体验。当鼠标悬停在数据点上时显示的“工具提示”是可以高度自定义的。
自定义工具提示的方法:
- 点击“标记”卡中的“工具提示”编辑按钮。
- 在编辑器中,直接输入的文本会静态显示。
- 通过点击“插入”按钮,你可以添加字段、参数等动态内容,这些内容会随着数据点的不同而变化。
- 你还可以使用 HTML 标签(如
<b>加粗、<i>斜体)和样式来改变字体、颜色和大小,从而创建更美观、信息更丰富的提示框。

总结
本节课中,我们一起学习了 Tableau 中抖动地图的创建方法。我们首先了解了其解决数据点重叠问题的原理,并认识了控制抖动的两个参数:扩散因子和扩散旋转。接着,我们重点剖析了实现过程中的两个关键难点:如何通过数据混合获取可在计算中使用的经纬度,以及如何正确设置复杂的表计算。最后,我们还介绍了如何自定义工具提示以提升可视化效果。虽然构建抖动地图需要一些耐心,但它不仅能产出极具表现力的图表,更能深化你对 Tableau 数据混合、表计算等核心功能的理解,是一项非常值得掌握的高级技能。
179:说服决策者采纳建议

概述
在本节课中,我们将学习如何准备一份有效的商业演示,以说服决策者采纳你的分析建议。我们将通过一个真实的历史案例,理解清晰沟通的重要性,并掌握将复杂分析转化为有说服力故事的关键技巧。
从哥伦比亚号航天飞机事故中学习
上一节我们完成了数据分析的核心工作,本节中我们来看看如何有效地沟通这些发现。一个关于沟通失败的著名案例是美国哥伦比亚号航天飞机事故。
哥伦比亚号于2003年1月16日从佛罗里达州肯尼迪航天中心发射升空。这次代号为STS-107的任务专注于科学研究,机组人员在16天的太空飞行中完成了80多项实验。
然而,当机组人员在太空进行癌症研究和微重力实验时,美国国家航空航天局(NASA)的工程师们正在讨论发射过程中从航天飞机上脱落的一块泡沫。他们需要判断这块泡沫造成的损坏是否会对机组人员构成威胁。

在哥伦比亚号轨道运行期间,工程师们制作了无数份关于此问题的PowerPoint演示文稿。最终决策者认定泡沫不构成威胁,哥伦比亚号按计划于2月1日返航。
不幸的是,决策者错了。泡沫造成的损坏是致命的。它在左翼的隔热系统上造成了一个洞,导致航天飞机重返地球大气层时,超高温气体侵入机翼,最终使航天飞机在得克萨斯州和路易斯安那州上空解体,所有宇航员遇难。
沟通失败是灾难的根源
哥伦比亚号事故调查委员会(CAIB)发布了一份多卷报告,分析了事故原因。报告指出,防止哥伦比亚号灾难所需的所有信息在正确的时间都已提供给NASA,但这些信息未能以决策者能够正确评估的方式传达给他们。
核心结论是:数据沟通的缺失是导致哥伦比亚号灾难的原因。
调查发现,几乎所有与哥伦比亚号任务相关的技术信息都是通过PowerPoint演示文稿,而非书面报告,传达给NASA各部门的。委员会聘请了数据可视化先驱爱德华·塔夫特来评估这些PPT的效果。塔夫特严厉批评了NASA工程师制作的幻灯片。
他特别提到了其中一张幻灯片,认为一个可能拯救任务的关键细节被埋没在项目符号列表中。那个细节指出,脱落的泡沫尺寸是NASA所有预测安全返航模型所假设尺寸的640倍。这意味着损坏非常严重,决策者本应高度关注。
但正如CAIB所指出的,由于这张幻灯片的呈现方式,高级管理层很可能根本没有意识到其中包含了关乎生死的信息。委员会在报告中总结道:
“委员会将普遍使用PowerPoint简报幻灯片而非技术论文的现象,视为NASA技术沟通方法存在问题的例证。”
换言之,CAIB认为,如果这个关键的工程细节被写在一份白皮书中,而不是拥挤的幻灯片里,它或许会被NASA决策者注意到,从而可能避免这场灾难。
商业演示的核心原则
显然,哥伦比亚号任务比我们在商业环境中可能遇到的任何项目都更为重大和复杂。但这并不意味着我们不能从中学习。正如我们在Tableau数据可视化与沟通课程第四周所讨论的:
- 幻灯片演示用于讲述你的数据故事并说服你的听众。
- 书面白皮书用于记录技术细节,当你在演示中成功吸引听众后,他们可能会对这些细节感兴趣。
因此,本周你的任务是准备一份幻灯片演示来说服Watershed高管采纳你的建议,同时准备一份独立的书面文档来记录你分析模型的细节。
如何准备你的演示
以下是准备有效演示的几个关键步骤。
首先,为你的演示制作故事板。确定你想要表达的关键观点、支持这些观点的关键数据分析,以及最能说明这些分析含义的可视化图表。思考如何构建你的故事并吸引听众。
确保对你的故事进行压力测试,并充分利用你学到的所有数据沟通概念。在整合演示文稿时,强烈建议你向同伴、朋友或同事寻求反馈。
区分演示与文档
需要再次强调,你设计这份演示的目的是为了说服听众,而不是记录你在过去几周所做的所有艰苦工作。
你可能会非常想展示你的电子表格截图或线性回归方程。请抵制这种诱惑。这些类型的细节可能是你故事的背景,你应当为之自豪,但它们无助于你讲述故事,更无法帮助你高效地讲述故事。
事实上,正如哥伦比亚号事故调查委员会所发现的,这类细节如果放在演示中,不仅会被忽略,还会让只想了解你建议的Watershed高管感到沮丧。
所以,请将你模型和分析的所有细节都放入你的白皮书中,以便感兴趣的听众可以自行研究。但不要把它们放在你的可视化演示里。
优化幻灯片设计
在最终确定幻灯片时,请确保运用我们在Tableau数据可视化与沟通课程中讨论的设计概念:
- 最大化数据墨水比。
- 使用颜色和对比来吸引人们对重要内容的注意。
- 选择易于听众正确解读的图表。
请记住,听众在幻灯片上看什么或不看什么,将决定他们的决策。
练习与交付
然后,确保你多次练习你的演示。注意你的开场、结论和过渡。你是否设置了情感钩子?它们是否真诚?是否高效?
当你自信已经充分练习,使演示尽可能吸引人和有说服力时,当你为仪表板做了最后的润色,并完成了白皮书时,你就准备好在下周向Watershed高管进行演示了。


总结
本节课中,我们一起学习了如何准备一份有说服力的商业演示。我们通过哥伦比亚号航天飞机的悲剧案例,理解了清晰、有效沟通的极端重要性。关键要点在于:使用幻灯片讲述一个引人入胜、以行动为导向的故事;将支持性的技术细节放入单独的白皮书中;运用优秀的数据可视化原则来设计幻灯片;并通过充分练习来完善你的交付。我们期待看到你的精彩演示。
数据分析入门:0:祝贺与展望 🎉

在本节课中,我们将回顾并总结整个数据分析专项课程的学习历程与核心收获。
通过本专项课程的学习,你已经掌握了访问、分析、理解、可视化并呈现信息的一系列激动人心的新方法。你应当为自己所取得的成就感到自豪,并为你能够向他人展示这些成就而感到兴奋。
课程历程回顾
以下是你在整个专项课程中完成的学习任务概览:
- 你观看了超过 170 个视频,总时长约 1200 分钟,相当于 20 小时。
- 你使用了超过 50 个不同的 Excel 电子表格进行实践。
- 你完成了超过 25 次计分测验。
- 在计分与非计分测验中,你至少回答了 500 道测验题目。
这门课程的设计初衷就不简单,事实也确实如此。在这个过程中,你已经培养了数据分析领域一些最实用、最具可操作性的技能。
核心技能掌握
上一节我们回顾了学习历程,本节中我们来看看你掌握的核心技能。
你已熟悉商业术语,并掌握了三个核心工具:
- Excel:用于数据清洗、计算与分析。
- Tableau:用于数据可视化与仪表板创建。
- SQL:用于数据库查询,核心操作如
SELECT * FROM table WHERE condition。
更根本的是,你学会了一种可推广到未来各种新场景中的问题解决方法论。我们希望你能像我们一样,始终对数据和计算机革新业务流程、改善人际互动的力量保持兴奋。
行业展望与个人成长
掌握了核心技能后,我们有必要展望这个领域的未来。
我们在商业指标课程中讨论的数据最佳实践将很快无处不在,许多我们尚未想象的新应用将会涌现。这个领域从未停滞,你也不应止步。
除了实用技能,我们还希望与你分享了这个领域所蕴含的智力上的兴奋感与广阔潜力。我们也希望你已经获得了提问、深入思考以及在需要时学习新技能的自信,因为这就是数据科学与数据分析的核心。
你已经证明了自己是真正数据驱动的、为终身学习做好准备的人才,我们为你与我们同行这段旅程而感到骄傲。
结语
无论你最终是成为商业分析师、业务数据分析师、数据科学家、技术专家,还是担任其他商业角色,我们都相信,你会为你的工作带来对计算机和数据力量的新认知,以产生洞察并推动创新。
我们非常享受与你共度的这段时光,并祝愿你在未来的努力中一切顺利。为了纪念你的成就,我们为你准备了这份临别赠礼。




本节课中,我们一起回顾了整个专项课程的丰硕成果,总结了核心技能(Excel、Tableau、SQL),展望了数据分析领域的动态未来,并鼓励你保持终身学习的态度,运用数据的力量去驱动创新与洞察。
