当前位置：首页 > news >正文

谷歌数据分析-III-笔记-全-

news 2026/3/26 12:41:14

谷歌数据分析 III 笔记（全）

001：谷歌数据分析师课程第三课《为数据探索做准备》📊

在本节课中，我们将学习如何为数据分析项目准备数据。我们将了解数据的类型、结构，以及如何提取、使用、组织和保护数据。掌握这些技能能帮助你为手头的问题选择合适的数据，并确保分析过程顺利有效。

我的故事：数据如何驱动变革 👩💼

上一节我们介绍了课程目标，本节中我们来看看一个真实的数据应用案例。

我是 Hallie，谷歌的分析团队负责人。我帮助医疗保健公司制定数字营销方案，以增强其业务和品牌实力。我的团队基于最新的行业洞察和数据发现商业与媒体机会。

在医疗保健领域工作五年，我深感荣幸。我享受使用数据在这个重要行业中推动变革。数据可以成为一个极具影响力的故事主角，我热爱通过分析，以引人入胜且信息丰富的方式讲述这个故事。

以下是一个工作中的真实案例：
我们分析了随时间变化的医疗保险注册数据，并将其与人们在谷歌上搜索医疗保险计划的行为联系起来。随着65岁及以上人群对其健康决策越来越知情，我利用数据来了解医疗保险注册量是否增加，以及谷歌搜索在其中扮演了什么角色。如果需求增加，我需要确认数据是否相关和有效，同时关注访问与公平性问题，并保护搜索者的隐私。

这个故事的圆满结局是：我的数据和发现对医疗专业人士及其患者非常有用。外界存在大量有用数据，而你正在积累寻找并以最佳方式使用正确数据所需的技能。本课程将继续磨砺这些技能。

数据分析流程回顾 🔄

在深入了解数据准备之前，我们先快速回顾一下你已经熟悉的数据分析流程步骤。

数据分析流程包括以下阶段：

提问
准备
处理
分析
分享
行动

目前，你已学习了如何提出正确问题、定义问题，并以符合利益相关者需求的方式呈现分析。换句话说，你学会了用数据讲故事。现在，我们将更深入地学习讲述最佳故事所需的数据。

本课程核心内容 🎯

上一节我们回顾了整体流程，本节中我们将聚焦于“准备”阶段的具体学习目标。

在本课程中，你将学习如何为分析准备数据。具体内容包括：

识别数据的生成与收集方式：了解数据从何而来。
探索不同的数据格式、类型和结构：认识数据的多样性。
选择并使用有助于解决业务问题的数据：确保数据与分析目标匹配。
评估数据的偏见与可信度：并非所有数据都适用于每种需求，学会批判性审视数据。
理解“干净数据”的含义：认识高质量数据的特点。
深入了解数据库：学习数据库是什么以及分析师如何使用它们。
使用工具提取数据：你将使用熟悉的工具（电子表格和SQL）从数据库中提取自己的数据。

以下是本课程将涵盖的关键技能领域：

数据组织基础：数据在组织得当的情况下才能发挥最佳效用。
数据保护流程：组织数据的同时，你也需要保护它。我将展示如何做到这两点，并将其应用于你自己的分析中。

耐心与实践是关键 ⏳

学习任何有价值的事物都需要时间和练习，数据准备也不例外。关键在于保持耐心。我会全程陪伴你每一步。

我已经迫不及待地想帮助你，在你继续探索数据分析世界的过程中，书写属于你自己的个人故事了。

让我们一起开始吧！

总结 📝

本节课中，我们一起学习了数据准备在数据分析中的重要性。我们通过一个案例看到了数据如何解决现实问题，回顾了数据分析流程，并明确了本课程将帮助你掌握的核心技能：从识别和选择数据，到评估其质量，再到从数据库提取、组织并保护数据。记住，耐心练习是掌握这些技能的关键。

002：谷歌数据分析师课程第三课《为数据探索做准备》📊

概述

在本节课中，我们将跟随谷歌的分析负责人Hallie，了解她如何将数据分析技能应用于美国医疗健康行业，并探索数据准备过程中的关键思维与技能。我们将学习数据分析如何在一个传统行业中创造价值，以及技术能力与创造性思维如何结合以产生深刻的数据洞察。

医疗健康行业的数据机遇 🏥

上一节我们了解了课程背景，本节中我们来看看Hallie为何选择医疗健康行业作为数据分析的舞台。

Hallie认为美国的医疗健康领域非常迷人。这是一个令人难以置信的行业，因为它历史上非常传统。与其他科技公司不同，医疗健康公司过去并未充分利用数据来指导决策。

她在大学时的一位教授甚至不希望学生使用教科书，理由是医疗行业变化太快，静态的教科书无法跟上快速发展的现实。

因此，将医疗健康与大数据、机器学习和人工智能相结合，是一个相对较新的概念。

数据分析生涯的起点 🔍

了解了行业背景后，我们来看看Hallie是如何踏入数据分析领域的。

Hallie首次接触大量患者数据时，是她第一次处理如此庞大的数据集。她发现，能够整合这些数据集并从中提炼出有价值的洞察和趋势，以帮助医院系统，这件事非常吸引人。

正是这段经历让她开始将数据分析视为一个潜在的职业方向。这最终引领她加入了谷歌，担任分析负责人的角色。在这里，她可以每天运用分析数据集的技能，确保与客户的每一次对话都是基于数据的对话。

在谷歌的具体工作 🎯

我们已经看到了数据分析如何开启她的职业生涯，现在我们来具体了解她在谷歌的工作内容。

Hallie在谷歌专注于医疗健康垂直领域。她的团队服务于在谷歌搜索和YouTube等平台进行营销的医疗健康公司。

以下是她们工作的两个主要方向：

帮助客户理解行业：帮助客户（无论是医疗保险公司、医疗服务提供者还是医院系统）更好地理解医疗健康行业，以便更有效地触达目标受众。不同客户利用谷歌平台接触受众的需求各不相同。
优化营销与研究：帮助客户优化营销支出。同时，团队也进行大量的医疗健康行业研究，包括用户研究和分析用户如何在谷歌上进行搜索，以揭示行业动态并指导有效的营销策略。

核心技能：技术与创造力 💡

上一节我们介绍了具体工作内容，本节中我们来看看胜任这些工作所需的核心技能。

Hallie指出，她的数据分析技术能力是随时间积累的。而她发现最重要、同样随时间增长并伴随她成长的技能，是数据分析的创造力。

你可以学习很多SQL或R语言的技能（这些在本课程中也会涉及），但创造力更多来自于经验。

当你审视一份数据时，你可能以一种方式看待和分析它。但换一个人来看，或者一周后再看，你发现的趋势可能完全不同。

因此，你必须收集这些信息碎片（她喜欢称之为“金块”），然后用数据将它们拼接成一个连贯的、有说服力的故事。这种技能是她在咨询工作中学会的，并带到了谷歌，得以打磨和精进。

正是这种技术能力与创造性思维的结合，让她深深热爱这份工作。

总结

本节课中，我们一起学习了Hallie在医疗健康领域的数据分析之旅。我们了解到，在一个传统行业中引入数据驱动决策的巨大潜力，看到了从处理庞大患者数据到在谷歌提供战略洞察的职业发展路径。更重要的是，我们认识到，优秀的数据分析不仅是掌握SQL等技术工具，更需要培养创造性思维，能够从多角度审视数据，并将信息碎片整合成有影响力的数据叙事。这为我们的数据探索准备工作提供了重要的思维框架。

003：谷歌数据分析师第三课《为数据探索做准备》 📊

在本节课中，我们将要学习现实世界中数据是如何被生成和收集的。理解数据的来源和收集方式，是进行有效数据分析的重要基础。

🌍 现实世界中的数据生成

数据正在全球范围内不断生成。我们谈论的是每天每分钟海量的数据。数百万条短信和数亿封电子邮件被发送。除此之外，还有数百万次在线搜索和视频观看，并且这些数字还在持续增长。数据量如此庞大，因此让我们深入了解它是如何产生和使用的。

在本视频中，我们将讨论数据生成的方式以及各行业如何自行收集数据。

📝 数据的来源与形式

每一条信息都是数据，所有这些数据通常是我们世界活动的产物。如今，我们在社交媒体和移动设备上花费大量时间。每天都有数以百万计的人为庞大的数据总量添砖加瓦。

可以这样理解：每一张在线数字照片都是一条数据，而每张照片本身包含更多数据，从像素数量到每个像素中包含的颜色。

但这并不是数据产生的唯一方式。我们也可以通过收集信息来生成数据。这种数据生成和收集方式需要考虑更多因素。它需要在伦理的考量下进行，以维护人们的权利和隐私。我们稍后会详细学习这一点。

现在，让我们看一个现实世界的例子。

🏛️ 实例：美国人口普查局

美国人口普查局使用表格来收集有关国家人口的数据。这些数据被用于多种目的，例如为学校、医院和消防部门提供资金。该局还收集有关美国企业等信息。在此过程中，他们生成了自己的数据。

其优点是，其他人随后可以将这些数据用于自己的需求，包括分析。年度商业调查用于了解企业的需求，以及如何为它们提供资源以帮助其成功。

🏥 行业中的数据生成实践

我本人在为医疗保健行业做分析时也会生成数据。我们进行大量调查，以了解患者对与其医疗保健相关的某些事情的感受。例如，一项调查询问了患者对远程医疗与面对面医生就诊的感受。我们收集的数据帮助我们合作的公司改善其患者接受的护理。

调查数据只是一个例子，各种数据一直在生成，并且收集方式也多种多样。

🔍 多样化的数据收集方法

即使是像面试这样简单的事情也能帮助某人收集数据。想象一下你正在参加一场工作面试，为了给招聘经理留下深刻印象，你会想要分享关于自己的信息。招聘经理收集这些数据并进行分析，以帮助他们决定是否聘用你。

但这是双向的。你也可以收集关于公司的数据，以帮助你判断这家公司是否适合你。或者，你可以利用收集到的数据来构思向面试官提出的深思熟虑的问题。

科学家们也在工作中通过大量观察来生成数据。例如，他们可能通过研究动物行为或在显微镜下观察细菌来收集数据。

之前我们讨论了美国人口普查局用于收集数据的表格、问卷和调查，这些都是常用且有效的收集和生成数据的方式。

🍪 注意：间接数据生成

有一点需要注意，在线生成的数据并不总是直接发生的。你是否曾想过，为什么有些在线广告似乎能做出非常准确的推荐，或者有些网站如何记住你的偏好？这是通过使用 Cookie 实现的。

Cookie 是存储在计算机上的小文件，包含有关用户的信息。Cookie 可以根据你的在线浏览习惯，在不直接识别你个人身份的情况下，帮助广告商了解你的个人兴趣和习惯。

💡 对数据分析师的意义

作为一名现实世界中的分析师，你将触手可及各种数据，而且数量庞大。了解数据是如何生成的，有助于为数据添加上下文；而了解如何收集数据，则可以使数据分析过程更加高效。

接下来，你将学习如何决定为分析收集哪些数据，敬请期待。

📚 本节总结

本节课中，我们一起学习了现实世界中数据的多种生成方式，包括直接活动产生、主动收集（如调查、表格）以及间接追踪（如Cookie）。我们还通过人口普查、医疗调查和招聘面试等实例，了解了数据在不同场景下的应用。理解数据的来源是进行准确、有效分析的第一步。

004：谷歌数据分析师第三课《为数据探索做准备》📊

课程概述

在本节课中，我们将学习如何为数据分析项目确定需要收集的数据。面对近乎无限的数据，做出正确的选择至关重要。我们将探讨在收集数据时需要考虑的关键因素，包括数据来源、数据量、数据类型以及时间范围。

确定数据来源

上一节我们介绍了数据分析项目的起点。本节中，我们来看看如何确定数据的来源。首先，你需要了解数据将如何被收集。

在分析城市高峰时段交通拥堵原因的例子中，你可能会通过观察交通模式来统计特定时间城市街道上的汽车数量。你注意到车辆在一条特定街道上发生了拥堵。

以下是常见的数据来源类型：

第一方数据：由个人或组织使用自有资源直接收集的数据。在交通案例中，你的观察记录就是第一方数据。这通常是首选方法，因为你确切知道数据的来源。
第二方数据：由某个组织直接从其受众收集，然后出售的数据。如果你无法自行收集数据，可以向在本市进行过交通模式研究的组织购买。这些数据虽非你原创，但由于来自有交通分析经验的源头，通常仍然可靠。
第三方数据：从外部来源获取的、非其直接收集的数据。这些数据在到达你手中之前可能已经过多次转手，因此可靠性可能较低。但这并不意味着它没有用处，你只需确保检查其准确性、偏见和可信度。

实际上，无论使用何种数据，都需要检查其准确性和可信度。我们将在后续课程中更详细地了解这个过程。现在，请记住你选择的数据应适用于你的需求，并且必须经过使用授权。

选择相关数据

作为数据分析师，你的职责是决定使用哪些数据。这意味着选择能帮助你找到答案和解决问题的数据，而不被其他无关数据分散注意力。

在我们的交通案例中，财务数据可能帮助不大，但关于高流量时段的现有数据则会非常有帮助。

确定数据量：总体与样本

接下来，我们讨论需要收集多少数据。在数据分析中，总体指的是某个特定数据集中所有可能的数据值。

公式： 总体 = {数据集中的所有可能值}

如果你要分析一个城市的汽车交通数据，那么总体就是该区域的所有汽车。然而，从整个总体中收集数据可能非常具有挑战性。

这时，样本就非常有用了。样本是总体中具有代表性的一部分。

公式： 样本 ⊆ 总体

你可以收集城市中一个地点的数据样本并分析那里的交通情况，或者从总体中的所有现有数据中随机抽取一个样本。如何选择样本将取决于你的具体项目。

选择合适的数据类型

在收集数据时，你还需要确保为数据选择了正确的类型。对于交通数据，一个合适的数据类型可能是以日期格式存储的交通记录日期。

代码示例（伪代码）： 交通记录日期：YYYY-MM-DD

这些日期可以帮助你判断未来一周中哪些日子可能出现高流量交通。我们很快会更详细地探讨这个话题。

确定数据收集的时间范围

最后，你需要确定数据收集的时间范围。在我们的例子中，如果你需要立即得到答案，就不得不使用历史数据，即已经存在的数据。

但假设你需要跟踪很长一段时间内的交通模式，这可能会影响你在数据收集过程中做出的其他决策。

课程总结

本节课中，我们一起学习了数据分析师在收集数据时需要考虑的不同因素。你现在更了解如何确定数据来源、选择相关数据、决定数据量（总体与样本）、选择合适的数据类型以及设定时间范围。正因为掌握了这些，当你开始自行收集数据时，你将能够找到正确的数据。关于数据收集，还有更多内容需要学习，请继续关注接下来的课程。

005：05_01_01_发现数据格式.zh_en - GPT中英字幕课程资源 - BV19X4y1n7Xd

概述

在本节课中，我们将学习数据的不同格式。我们将通过一个电影数据表格的例子，来理解定量数据与定性数据、离散数据与连续数据、名义数据与顺序数据、内部数据与外部数据，以及结构化数据与非结构化数据等核心概念。掌握这些概念对于后续的数据探索和分析至关重要。

定量数据与定性数据

上一节我们介绍了课程概述，本节中我们来看看数据最基本的两种类型：定量数据和定性数据。

在电影数据表格中，A列是电影片名。这是定性数据，因为它无法被计数、测量或简单地用数字表达。定性数据通常以名称、类别或描述的形式出现。在我们的表格中，电影片名和演员阵容都属于定性数据。

接下来是定量数据。这种数据可以被测量或计数，并以数字形式表达。它代表了一定的数量、金额或范围。在我们的表格中，最后两列显示了电影的预算和票房收入。这些列中的数据以美元为单位，可以被计数，因此我们知道这些数据是定量数据。

离散数据与连续数据

了解了定量数据后，我们可以进一步将其细分为离散数据和连续数据。

以下是离散数据与连续数据的区别：

离散数据：这种数据是可计数的，并且其数值是有限的。回到我们的表格，M列和N列分别是每部电影的预算和票房收入。这两者都是离散数据的例子，因为它们可以被计数，并且数值有限。例如，一部电影赚取的金额只能用小数点后两位（代表美分）来精确表示。在一美分和两美分之间不存在其他值。
连续数据：这种数据可以用计时器测量，其数值可以表示为具有多位小数的十进制数。想象一下我将来肯定会主演的那部关于数据分析师的电影。你可以将这部电影的时长表示为 110.0356 分钟。如果需要，你甚至可以在小数点后添加更精确的分数数据。

名义数据与顺序数据

上一节我们区分了定量数据的子类型，本节中我们来看看定性数据的两种重要分类：名义数据和顺序数据。

以下是名义数据与顺序数据的区别：

名义数据：这是一种没有固定顺序的分类定性数据。换句话说，这类数据没有序列。举一个简单的例子：假设你正在收集关于电影的数据。你问人们是否看过某部电影。他们的回答将是名义数据的形式。他们可能回答“是”、“否”或“不确定”。这些选择没有特定的顺序。
顺序数据：这是一种具有固定顺序或等级的定性数据。如果你让一组人将一部电影从1到5进行排名，有些人可能评为2，其他人评为4，依此类推。这些排名是根据每个人对电影的喜爱程度排序的。

内部数据与外部数据

现在我们来谈谈内部数据。内部数据是指存在于公司自身系统内的数据。例如，如果一家电影制片厂仅使用自己的收集方法，将电子表格中的所有数据汇编而成，那么这就是他们的内部数据。内部数据的好处在于通常更可靠且更容易收集。

但在我们这个表格中，更有可能的情况是，该电影制片厂不得不使用其他制片厂和来源拥有或共享的数据，因为表格中包含了一些他们并未制作的电影。这意味着他们可能正在收集外部数据。外部数据，正如你所猜到的，是指在一个组织外部存在和生成的数据。当你的分析依赖于尽可能多的来源时，外部数据变得特别有价值。

结构化数据与非结构化数据

这种数据的一个优点是它是结构化的。结构化数据是指以特定格式（如行和列）组织的数据。电子表格和关系数据库是两种可以以结构化方式存储数据的软件。

你可能还记得我们之前对结构化思维的探讨，它帮助你为问题添加一个框架，以便以有组织、有逻辑的方式解决问题。你可以用同样的方式思考结构化数据。为数据提供一个框架，使得数据易于搜索，并更便于进行分析。作为一名数据分析师，你将处理大量结构化数据，这些数据通常以表格、电子表格或关系数据库的形式出现。

但有时你也会遇到非结构化数据。这是指没有以任何易于识别的方式组织的数据。音频和视频文件就是非结构化数据的例子，因为没有明确的方法来识别或组织其内容。非结构化数据可能具有内部结构，但这些数据无法像结构化数据那样整齐地放入行和列中。

总结

本节课中我们一起学习了数据的不同格式。我们探讨了定量数据与定性数据的区别，深入了解了离散数据和连续数据，区分了名义数据和顺序数据，认识了内部数据与外部数据，并最终理解了结构化数据与非结构化数据。希望你现在对数据格式以及如何在工作中使用它们更加熟悉。在接下来的课程中，你将继续探索结构化数据，并了解更多作为分析师最常使用的数据知识。

006：06_01_03_继续探索结构化数据.zh_en - GPT中英字幕课程资源 - BV19X4y1n7Xd

课程概述 📋

在本节课中，我们将继续深入学习结构化数据。我们将探讨结构化数据如何与数据模型协同工作，以及它在数据库和数据可视化中的应用。通过本课，你将更清晰地理解为什么结构化数据是数据分析师最常处理的数据类型。

结构化数据的重要性

上一节我们比较了结构化数据和非结构化数据。现在，我们来更深入地看看结构化数据。

当前生成的大多数数据实际上是非结构化的。音频文件、视频文件、电子邮件、照片和社交媒体都是非结构化数据的例子。这些数据以其原始的非结构化格式分析起来可能更困难。

但好消息是，你大部分时间都将处理结构化数据。例如，当你需要分析关于非结构化数据（如电子邮件、照片和社交媒体网站）的数据时，这些数据很可能在你接触到之前就已经被结构化以便分析了。

因此，我想进一步探讨一下结构化数据，作为一个快速回顾。

结构化数据与数据模型

结构化数据是以行和列等格式组织的数据。但这其中肯定有更多内容。

结构化数据在数据模型中运行良好。数据模型是一种用于组织数据元素及其相互关系的模型。

什么是数据元素？它们是信息片段，例如人名、账号和地址。数据模型有助于保持数据的一致性，并提供数据组织方式的蓝图。这使得分析师和其他利益相关者更容易理解他们的数据并将其用于业务目的。

结构化数据的应用

除了在数据模型中运行良好之外，结构化数据对数据库也很有用。这使得分析师可以在需要时轻松地输入、查询和分析数据。

这也有助于使数据可视化变得相当容易，因为结构化数据可以直接应用于图表、图形、热图、仪表板和大多数其他数据可视化表示。

总结与预告

好了，现在我们知道了存储数据集的电子表格和数据库是广泛使用的结构化数据源。

在探索了一些其他数据结构之后，你将使用电子表格来查看更多的数据类型。冒险仍在继续。

本节课总结 🎯

本节课我们一起学习了结构化数据的核心概念。我们了解到，尽管非结构化数据大量存在，但分析师主要处理的是经过组织的结构化数据。我们探讨了结构化数据如何通过数据模型保持一致性，以及它如何简化数据库操作和数据可视化过程。理解这些基础，将为你后续使用电子表格等工具探索具体数据类型打下坚实的基础。

007：谷歌数据分析师第三课《为数据探索做准备》data-preparation 📊

07_01_01 了解你正在处理的数据类型

在本节课中，我们将要学习如何描述和分析数据的一个关键方面：数据类型。理解数据类型是进行有效数据探索和准备的基础，它能帮助你避免常见的错误，并确保后续分析的准确性。

到目前为止，你已经学习了很多关于数据的知识，从生成的数据到收集的数据，再到数据格式。尽可能多地了解你将用于分析的数据是有益的。在本视频中，我们将讨论另一种描述数据的方式：数据类型。

数据类型是一种特定的数据属性，它说明了数据是哪种类型的值。换句话说，数据类型告诉你正在处理的是哪种数据。

数据类型可能因你使用的查询语言而异。例如，SQL允许不同的数据类型，具体取决于你使用的数据库。不过现在，让我们专注于在电子表格中使用的数据类型。我们将使用一个已填充数据的电子表格，称之为“全球通过谷歌搜索对甜点的兴趣”。

电子表格中的数据类型

在电子表格中，数据类型可以是以下三种之一：数字、文本（或字符串） 或布尔值。你可能会发现有些电子表格程序对它们的分类略有不同或包含其他类型，但这些值类型几乎涵盖了你在电子表格中能找到的任何数据。接下来我们将逐一查看。

数字数据类型

观察B、D和F列，我们找到了数字数据类型。每个数字代表特定一周内对“纸杯蛋糕”、“冰淇淋”和“糖果”这些词的搜索兴趣度。数字越接近100，表示该搜索词在该周越受欢迎。100代表峰值受欢迎度。

请记住，在这种情况下，100是一个相对值，而不是实际的搜索次数。它代表特定时间段内的最大搜索量。可以将其视为满分100分中的百分比。所有其他搜索也按100分制进行估值。在其他数据集中你可能也会注意到这一点。100分是满分。如果需要，你可以将数字更改为百分比或其他格式，如货币。

这些都是数字数据类型的例子。

文本（字符串）数据类型

在H列，数据显示了基于搜索数据每周最受欢迎的甜点。例如，在单元格H4中（对应2019年7月28日开始的那一周），最受欢迎的甜点是“冰淇淋”。这是一个文本数据类型或字符串数据类型的例子，它是一个包含文本信息的字符和标点符号序列。

在这个例子中，该信息是甜点的名称。文本也可以包含数字，如电话号码或街道地址中的数字，但这些数字不会用于计算。因此，在这种情况下，它们被视为文本，而不是数字。

布尔数据类型

在C、E和G列，看起来我们有一些文本。但这里的文本不是文本或字符串数据类型，而是布尔数据类型。布尔数据类型是一种只有两个可能值的数据类型：True（真）或False（假）。

C、E和G列显示的是布尔数据，用于表示每周的搜索兴趣度是否至少为50（满分100）。其工作原理如下：我们创建了一个公式来计算B、D和F列中的搜索兴趣数据是否大于或等于50。在单元格B4中，搜索兴趣度是14。因此，在单元格C4中，我们找到了单词“false”，因为本周数据的搜索兴趣度小于50。

因此，对于C、E和G列中的每个单元格，仅有的两个可能值是“true”或“false”。我们可以更改公式，让其他单词出现在这些单元格中，但它仍然是布尔数据。你很快将有机会阅读更多关于布尔数据类型的内容。

常见问题：混淆数据类型与单元格值

现在，让我们讨论人们在电子表格中遇到的一个常见问题：混淆数据类型与单元格值。

例如，在单元格B57中，我们可以创建一个公式来计算其他单元格中的数据。这将为我们提供数据集中所有周内对纸杯蛋糕的平均搜索兴趣度，大约为15。该公式有效，因为我们使用了数字数据类型进行计算。

但是，如果我们尝试使用文本或字符串数据类型（如C列中的数据）进行计算，就会得到一个错误。错误值通常发生在输入单元格值时出错。因此，你越了解数据类型以及使用哪种类型，遇到的错误就越少。

以上就是关于数据类型的介绍。我们还没有结束。接下来，我们将更深入地探讨数据类型、字段和值之间的关系。稍后见。

总结

本节课中，我们一起学习了数据类型这一核心概念。我们了解到，在电子表格分析中，数据主要分为三种类型：用于计算的数字、用于描述信息的文本（字符串），以及用于表示逻辑状态的布尔值（True/False）。正确识别和使用数据类型是避免计算错误、确保数据准确性的关键。在下一节中，我们将基于此知识，进一步探索数据类型如何与数据字段和具体数值相互作用。

008：谷歌数据分析师第三课《为数据探索做准备》 📊

08_01_03 数据表组件

在本节课中，我们将要学习数据表的基本组件。理解数据表的结构是进行数据分析的基础。我们将探讨数据表如何组织信息，以及如何识别其中的关键元素。

给你出一个谜语。音乐播放列表、日历日程和电子邮件收件箱有什么共同点。

给你一个提示。答案不是每周的即兴演奏会。答案是它们都以表格形式排列。

你可以查看你的电子邮件收件箱或一个最喜欢的播放列表。或者看看你的日历日程。

每一个里面都有表格。数据表或表格数据具有非常简单的结构。

它以行和列的形式排列。你可以将行称为记录，将列称为字段。

它们基本上指的是同一件事。但记录和字段可以用于任何类型的数据表。

而行和列通常专用于电子表格。

在讨论结构化数据库时，数据分析领域的人通常使用记录和字段这两个术语。

有时，字段也可以指单个数据片段，例如单元格中的值。无论如何。

在本课程和你的工作中，你都会听到这两个术语的版本。

让我们回到播放列表的例子。我们将使用刚刚介绍的新术语。

所以每首歌都是一个记录。每条记录都与其他记录具有相同顺序的相同字段。

换句话说，播放列表对每首歌都有相同的信息。每个歌曲特征。

例如歌曲标题或艺术家，都是一个字段。每个单独的字段具有相同的数据类型。

但不同的字段可以有不同的类型。让我以歌曲列表为例说明我的意思。

歌曲标题是文本或字符串类型，而歌曲长度可以是数字类型（如果你用它进行计算）。

或者它可以是日期和时间类型。收藏夹列是布尔类型。

因为它有两个可能的值：已收藏或未收藏。

我们可以以同样的方式看待电子表格。电子表格中的记录可能涉及各种事物。

例如客户、产品、发票或任何其他东西。每条记录都有几个字段。

这些字段揭示了关于客户、产品或发票的更多信息。

每个单元格中的值都包含一个特定的数据片段。

例如客户的地址或发票的金额。作为一名数据分析师。

你将接触到大量数据，而数据表中的记录、字段和值将帮助你进行导航分析。

理解你正在处理的表格结构是其中的一部分。希望。

当你在努力分析那些表格时。

你可以用另一种数据表来获得一点乐趣。那就是你最喜欢的播放列表。😊。

009：谷歌数据分析师第三课《为数据探索做准备》 📊

第九节：认识宽数据与长数据

在本节课中，我们将要学习数据在表格中的两种常见组织形式：宽数据与长数据。理解这两种格式对于有效存储、组织和分析数据至关重要。

宽数据格式介绍

上一节我们讨论了数据的基本结构，本节中我们来看看数据如何以“宽”的格式呈现。

宽数据格式中，每个数据主体（例如一个国家、一个人）占据一行，而该主体的各个属性值则分布在多个列中。这种格式便于我们横向比较不同属性。

以下是一个宽数据在电子表格中的示例：

在这个关于拉丁美洲和加勒比地区国家人口的数据集中，每一行提供了一个国家的所有人口信息。每一列则显示了不同年份的人口数据。

宽数据格式的优势在于，它能让你轻松识别并快速比较不同的列。例如，数据按国家字母顺序排列，你可以通过查看各列的值，直接比较安提瓜和巴布达、阿鲁巴及巴哈马每年的入口。

此外，宽数据格式也便于查找和比较一个国家在不同时期的人口。例如，通过对数据进行排序，我们可以发现巴西在2010年拥有所有国家中最高的入口，而英属维尔京群岛在2013年的人口最低。

长数据格式介绍

了解了宽数据后，现在让我们探索一下数据的“长”格式。

在长数据格式中，数据不再按年份组织成多个列。所有的年份现在都集中在一个列中，而每个国家（如阿根廷）会出现在多行里，每一行对应一年的数据。这是长数据通常的样子。

长数据是指每个主体在每个时间点的数据占据一行。因此，每个主体的数据会分布在多行中。

我们的电子表格被格式化为显示每年的入口数据。这里我们首先看到的是安提瓜和巴布达。

当我们想要观察每个主体在每个时间点的多个变量时，长数据是一种极佳的存储和组织数据格式。

两种格式的比较与选择

以下是宽数据与长数据核心特点的对比：

宽数据：结构为 每个主体一行，每个属性一列。
长数据：结构为 每个主体-时间点组合一行，变量集中在一列。

使用长数据格式，我们可以用更少的列来存储和分析所有这些数据。此外，如果我们想添加一个新变量（如人口平均年龄），我们只需要增加一列。

如果我们使用宽数据格式，则需要为每一年都增加一列，总共需要增加10列。长数据格式使一切保持紧凑。

如果你想知道应该使用哪种格式，简单的答案是：视情况而定。

有时你需要将宽数据转换为长数据格式，有时则相反。在你的工作中，你很可能会同时处理这两种格式，并且在本课程后续内容中，你肯定会再次遇到它们。

总结与展望

本节课中我们一起学习了数据的两种基本组织形式：宽数据与长数据。我们了解到，数据作为事实的集合，可以呈现出多种不同的格式和结构。

认识数据呈现的各种方式，将在整个数据分析过程中对你大有裨益。你接触各种形式的数据越多，就能越快开始识别在何时使用何种数据。

接下来，你将运用大脑中储存的所有这些知识来完成一项评估。之后，你将学习如何识别和避免数据中的偏见，以及如何秉持可信度、正直和道德。数据冒险之旅继续前进，很高兴你一同前行。😊

010：谷歌数据分析师第三课《为数据探索做准备》 🧭

概述

在本节课中，我们将学习数据分析中至关重要的几个概念：偏差、可信度、隐私与伦理。理解这些概念能帮助我们确保分析过程的公正性、结果的可靠性，并负责任地处理数据。

欢迎回来。在之前的课程中，我们讨论了如何准备数据，以帮助你讲述有意义的故事。现在，让我们看看接下来要做什么。

就像所有精彩的故事一样，你的数据故事也将充满角色、问题、挑战、冲突，并最终希望有一个解决方案。关键在于避免冲突、克服挑战并回答问题。这正是本课程的核心内容。

以下是我们的学习路径。

首先，你将学习如何分析数据的偏差与可信度。这非常重要，因为即使是最可靠的数据也可能存在偏差或被误解。

上一节我们介绍了课程的整体目标，本节中我们来看看具体的第一步：评估数据质量。

以下是分析数据时需要关注的两个核心方面：

偏差：指数据中存在的系统性错误或倾向，可能导致分析结果不准确或不公平。
可信度：指数据的可靠程度和真实性。

接着，我们将学习区分优质数据源和劣质数据源的重要性。是的，就像我们小时候被教导要分清好坏一样。但在数据分析中，我们将探索优质数据源，并学习如何避开它们的对立面——劣质数据。

在了解了如何辨别数据好坏之后，我们将更深入地探讨数据伦理、隐私和访问权限的世界。随着可用数据越来越多，以及我们为使用这些数据而创建的算法变得越来越复杂和精密，新的问题不断涌现。

我们需要提出一些问题。

例如：

谁拥有所有这些数据？
我们对数据的隐私有多少控制权？
我们可以随心所欲地使用和重复使用数据吗？

作为一名数据分析师，理解数据伦理和隐私非常重要，因为在你的工作中，你需要在数据的正确使用和应用方面做出许多判断。

我很高兴能引导你了解其中涉及的一些问题、答案、风险和回报。让我们在下一个视频中，开启这个数据故事的第一章。

总结

本节课中，我们一起学习了数据分析准备阶段的关键概念。我们明确了本课程将引导我们分析数据的偏差与可信度，区分优质与劣质数据源，并深入探讨数据伦理、隐私和访问权限等核心议题。这些知识是进行负责任且有效数据分析的基础。

011：谷歌数据分析师第三课《为数据探索做准备》data-preparation 📊

课程概述

在本节课中，我们将要学习数据分析中一个至关重要的概念：偏差。我们将探讨偏差如何产生，它如何影响数据收集与分析过程，以及为什么识别和管理偏差对确保分析结果的公平性与准确性至关重要。

从问题到结论的偏差

上一节我们介绍了数据准备的重要性，本节中我们来看看数据分析过程中一个常见的陷阱：偏差。

让我们先进行一次思维上的时间旅行。想象你回到了中学时代，参加了一场科学竞赛。你为项目努力了数周，力求完美。在宣布获奖者时，你听到了自己的名字——第二名。你非常失望，因为你渴望获得一等奖的奖杯。

第二天，你得知评委是第一名获奖者的叔叔。这公平吗？当评委的家人是参赛者之一时，他还能公平地选择获胜者吗？他很可能存在偏差。也许他的侄女确实应该获胜，也许不是。但关键在于，在这种情境下，很容易让人质疑其公正性。

这是一个非常简单的例子。但事实上，我们在日常生活中随时会遇到偏差。我们的大脑在生理上被设计为简化思维并快速做出判断。偏差已经演变成一种对某个人、群体或事物的偏好，这种偏好可以是有意识的，也可以是潜意识的。

好消息是，一旦我们了解并承认自己存在偏差，我们就可以开始识别自己的思维模式，并学习如何管理它。重要的是要认识到，偏差也可能渗透到数据世界中。

数据偏差是一种系统性地使结果向某个方向倾斜的错误类型。

数据偏差的来源

以下是数据偏差可能产生的几种常见方式：

调查设计偏差：调查问卷中的问题可能带有特定的倾向性，从而影响答案。
样本代表性偏差：样本群体可能无法真正代表所研究的总人口。例如，如果你要计算美国有健康保险的人口的年龄中位数，你不能只使用65岁及以上的医疗保险患者的样本。
样本包容性偏差：样本群体可能缺乏包容性。例如，在主流健康研究中，残疾人往往被识别不足、代表性不足或被排除在外。
数据收集过程偏差：数据收集的方式也可能导致数据集产生偏差。例如，如果你只给人们很短的时间回答问题，他们的回答就会很仓促。当我们匆忙时，会犯更多错误，这会影响数据的质量并产生有偏差的结果。

偏差的影响与责任

作为一名数据分析师，你必须从开始收集数据的那一刻起，直到呈现结论之时，始终思考偏差与公平性问题。毕竟，这些结论可能产生严重的现实影响。

思考一下这个例子：人们已经认识到，关于心脏健康的临床研究往往包含的男性远多于女性。这导致女性未能识别出症状，最终使她们的心脏疾病未被发现和治疗。这只是偏差可能产生非常真实影响的其中一种方式。

尽管我们在识别偏差方面已经取得了长足进步，但它仍然可能导致你在科学竞赛中输给评委的侄女。它仍然在影响着商业决策、医疗保健选择与获取、政府行动等等。因此，我们仍有工作要做。

总结

本节课中我们一起学习了数据分析中的偏差概念。我们了解到偏差是一种系统性的错误，它可能源于调查设计、样本选择或数据收集过程，并会扭曲分析结果。我们认识到，偏差不仅存在于个人判断中，也深深植根于数据本身，可能对医疗、商业等领域的决策产生重大现实影响。作为数据分析师，识别和管理偏差是确保分析工作公正、准确的关键责任。

在接下来的课程中，我们将向你展示如何识别数据本身的偏差，并探讨一些你实际上可能从中受益的场景。

012：有偏数据与无偏数据

在本节课中，我们将要学习数据科学中的一个核心概念：数据偏差。我们将探讨什么是有偏数据与无偏数据，理解偏差如何产生，并学习如何识别和避免它们，以确保我们的分析结果是可靠和公正的。

理解数据偏差

上一节我们介绍了数据准备的重要性，本节中我们来看看数据质量的一个关键威胁：偏差。

到目前为止，我们已经了解到，我们作为人类所持有的偏见最终可能导致产生有偏数据。当我们基于自身的先入之见甚至潜意识观念产生偏好时，我们就存在偏见。当数据存在偏差时，它会系统性地使结果向某个特定方向倾斜，从而使结果变得不可靠。

我们之前以抽样偏差为例进行了说明。抽样偏差是指样本不能代表整体总体的情况。你可以通过确保样本是随机选择的来避免这种情况，这样总体中的所有部分都有平等的机会被纳入样本。

公式表示：
无偏样本 ≈ 随机抽样 (总体中每个个体被选中的概率相等)

如果在数据收集过程中不使用随机抽样，你最终会偏向于某一个结果。

一个简单的例子

为了更好地理解偏差，让我们来看一个具体的场景。

假设一个班级里有50名学生，你想知道班里的大多数人是喜欢温暖天气还是寒冷天气。你决定调查你遇到的前10名学生，并根据他们的回答，你断定整个班级都喜欢温暖天气。但是，这里存在一些偏差。

你遇到的前10个人都是女性。因此，你的调查中只包含了女性。你的调查不能公平地代表整个班级，因为它没有包含性别谱系中的其他身份。如果你使用了一个更随机的、包含所有性别的样本，你就会得到一个无偏样本。

无偏抽样会产生一个能代表被测量总体的样本。

使用可视化识别偏差

上一节我们通过例子了解了抽样偏差，本节中我们来看看一个发现数据偏差的强大工具：数据可视化。

另一个发现你正在处理的数据是否为无偏数据的好方法，是通过可视化将结果生动地呈现出来。在我们刚刚讨论的班级例子中，你可以用一个条形图来可视化整个班级的学生人数及其性别身份。

然后，你可以将其与另一个显示你所调查学生的类似条形图进行比较。这将帮助你轻松识别样本中存在的任何不一致之处。

代码示例（概念性描述）：

# 假设我们有以下数据
import matplotlib.pyplot as plt# 总体数据：班级所有学生的性别分布
total_genders = [‘Male‘， ‘Female‘， ‘Non-binary‘]
total_counts = [25， 20， 5]![](https://github.com/OpenDocCN/dsai-notes-pt1-zh/raw/master/docs/ggl-dtanls-3/img/ac9d906eec4a2e545bf610dbd21b02d5_2.png)# 样本数据：调查中学生的性别分布
sample_genders = [‘Female‘]
sample_counts = [10]# 绘制对比条形图
fig， (ax1， ax2) = plt.subplots(1， 2)
ax1.bar(total_genders， total_counts)
ax1.set_title(‘总体性别分布‘)
ax2.bar(sample_genders， sample_counts)
ax2.set_title(‘样本性别分布‘)
plt.show()

其他类型的偏差

现在我们已经从抽样的角度了解了偏差是什么样子，接下来让我们探讨一些其他类型的偏差以及如何识别它们。

以下是数据分析中常见的几种偏差类型：

选择性偏差：由于样本选择方式不当而导致数据不能代表总体。
无应答偏差：当部分被选中的个体没有提供数据，且这些个体与应答者存在系统性差异时发生。
幸存者偏差：只关注“幸存”下来的个体或数据，而忽略了那些因为失败或退出而未被观察到的个体。
确认偏差：倾向于寻找、解释或记忆能够证实自己原有信念或假设的信息。

总结

本节课中，我们一起学习了数据偏差的核心概念。我们了解到，有偏数据会系统性地扭曲分析结果，而无偏数据则能更真实地反映总体情况。我们通过一个班级调查的例子，具体看到了抽样偏差是如何产生的，以及随机抽样对于获取无偏样本的重要性。此外，我们还介绍了使用数据可视化作为识别样本与总体之间差异的有效工具。最后，我们简要列举了数据分析中可能遇到的其他几种偏差类型。理解并避免这些偏差，是确保数据分析工作公正、可靠的关键一步。

013：理解数据中的偏差

在本节课中，我们将要学习数据分析中一个至关重要的概念：数据偏差。我们将探讨除了抽样偏差之外的几种常见偏差类型，了解它们如何影响数据收集与解读，并学习如何避免它们。

上一节我们介绍了抽样偏差，本节中我们来看看其他三种同样重要的偏差类型。

观察者偏差 👁️

观察者偏差，有时也称为实验者偏差或研究偏差，其核心是不同的人倾向于以不同的方式观察同一事物。

科学家在显微镜下观察细菌以收集数据时，不同的科学家观察同一台显微镜可能会看到不同的东西。这就是观察者偏差。

另一个例子是手动血压测量。由于血压计非常敏感，不同的医护人员可能会得到差异很大的读数。他们通常会四舍五入到最接近的整数来补偿误差范围。但如果医生总是向上或向下取整，就可能错过患者真实的健康状况，任何涉及这些患者的研究也将缺乏精确和准确的数据。

解释偏差 🤔

解释偏差是指倾向于总是以积极或消极的方式解释模糊情况。

例如，假设你正在与同事共进午餐，这时收到老板的语音留言，让你给她回电话。你生气地放下电话，确信她很生气，你因为某些事要“坐冷板凳”了。但当你把留言放给朋友听时，他完全没有听出生气，反而认为她的语气冷静而直接。

解释偏差会导致两个人看到或听到完全相同的事情，却因为不同的背景和经历，做出多种不同的解释。将这种带有个人色彩的解释加入数据分析，就可能得到有偏差的结果。

确认偏差 ✅

最后一种偏差让我想起一句话：人们只愿意看到他们想看到的东西。这基本上概括了确认偏差。

确认偏差是指倾向于寻找或解释信息，以证实自己已有的信念。一个人可能非常渴望证实自己的直觉，以至于只注意到支持它的信息，而忽略所有其他信号。

这在日常生活中经常发生。我们可能只从某个网站获取新闻，因为作者与我们信念相同；或者我们与某些人交往，因为我们知道他们持有相似的观点。毕竟，相反的观点可能会迫使我们质疑自己的世界观，进而可能导致我们改变整个信念体系。

总结与回顾 📝

本节课中我们一起学习了四种主要的数据偏差类型：

抽样偏差：样本不能代表整体。
观察者偏差：不同观察者对同一事物的观察结果不同。
解释偏差：对模糊信息进行带有个人倾向的解释。
确认偏差：只寻找或接受能证实自己已有信念的信息。

这四种偏差各有特点，但有一个共同点：它们都会影响我们收集和理解数据的方式。遗憾的是，这只是数据分析师生涯中可能遇到的偏差类型的一小部分。但好消息是，一旦你了解了几种，你就会时刻警惕任何形式的偏差。

同样重要的是要记住，无论使用何种数据，所有数据都需要检查其准确性和可信度。我们将在后续探索“坏数据”时更详细地讨论这一点。

014：谷歌数据分析师第三课《为数据探索做准备》📊

在本节课中，我们将学习如何识别优质数据源。高质量的数据是做出可靠决策的基础，掌握评估数据源的方法至关重要。

概述

数据质量直接影响分析结果的可靠性。本节将介绍一套实用的评估框架，帮助您判断数据源是否值得信赖。

识别优质数据源：ROCK框架

上一节我们介绍了数据准备的重要性，本节中我们来看看如何系统地评估数据源。我们可以使用一个名为“ROCK”的框架，它代表可靠、原始、全面、最新、可引用。

以下是ROCK框架的五个核心维度：

R - 可靠
优质数据源提供的数据是可靠的。这意味着数据准确、完整、无偏见，并且经过验证，适合使用。公式可以表示为：可靠数据 = 准确性 + 完整性 + 无偏性。
O - 原始
您可能通过第二手或第三手渠道发现数据。为确保数据质量，务必与原始来源进行验证。
C - 全面
最佳数据源应包含回答问题或找到解决方案所需的所有关键信息。这就像评估一家公司不能只看一条好评，而需要研究其各个方面。
C - 最新
数据的实用性会随时间推移而降低。例如，您不会用一份十年前的客户名单来邀请现有客户参加活动。优质数据源提供的数据是最新且与当前任务相关的。
C - 可引用
可引用性使您提供的信息更具可信度。选择数据源时，请思考三个问题：
1. 谁创建了该数据集？
2. 它是否来自可信的组织？
3. 数据最后一次更新是什么时候？

如果数据来自可靠组织的原始数据，并且具备全面、最新和可引用的特性，那么它就是优质的。

优质数据源的常见类型

现在您已经知道如何识别优质数据，以下是几种公认的优质数据来源：

经过审核的公共数据集
学术论文
金融数据
政府机构数据

总结

本节课中我们一起学习了评估数据源质量的ROCK框架。该框架强调数据应具备可靠、原始、全面、最新、可引用的特性。掌握这些原则能帮助您在数据分析的起步阶段就奠定坚实的基础，从而更有信心地做出决策。接下来，我们将了解低质量数据的常见问题以及如何避免它们。

015：谷歌数据分析师第三课《为数据探索做准备》data-preparation 📊

课程概述

在本节课中，我们将要学习如何识别和避免劣质数据。我们将回顾优质数据的标准，并详细探讨劣质数据的各种特征及其潜在危害。

回顾优质数据标准

上一节我们介绍了如何识别和寻找优质数据源，这个过程可以总结为 ROC 标准。我们发现，如果数据是可靠的、原始的、全面的、最新的和被引用的，那么它就是优质的。

认识劣质数据

本节中，我们来看看劣质数据源。它们不符合 ROC 标准，即不可靠、非原始、不全面、不最新、未被引用。更糟糕的是，它们可能完全错误或充满人为失误。

我们将再次从 R 开始分析。

R - 不可靠

劣质数据不可信，因为它不准确、不完整或存在偏见。

以下是不可靠数据的两种常见情况：

样本选择偏差：数据不能反映整体人群。
误导性可视化：图表可能具有误导性。

例如，请看这两个条形图。左边的图Y轴起点是3.14%，而右边的图起点是0。这使得利率在四年间看起来飙升了，而实际上它们保持得相当平稳。

O - 非原始

如果你无法定位原始数据源，而只是依赖二手或三手信息，这可能意味着你需要格外小心地理解你的数据。

C - 不全面

劣质数据源缺少回答问题或找到解决方案所需的重要信息。更糟的是，它们可能包含人为错误。

C - 不最新

劣质数据源已经过时且不相关。许多受尊敬的来源会定期更新数据，让你确信这是最新的信息。例如，你可以始终信任 data.gov，它是美国政府开放数据的官方网站。

C - 未被引用

如果你的来源未被引用或审查，那就是不可取的。

核心总结与影响

总而言之，优质数据应来自可靠组织的原始数据，并且全面、最新、被引用。它应该符合 ROC 标准。否则，它就是劣质数据。

如果你需要一个可靠的数据源，可以参考美国人口普查局，他们定期更新信息。

对于数据分析师来说，理解并警惕劣质数据至关重要，因为它可能产生严重而持久的影响。无论是导致一个错误商业决策的不正确结论，还是因信息不准确导致流程失败并使人群面临风险。

如何寻找优质数据

每一个优秀的解决方案都是通过避开劣质数据、寻找优质数据而发现的。可以从经过审查的公共数据集、学术论文、财务数据和政府机构数据开始。

课程总结

本节课中，我们一起学习了劣质数据的特征及其危害。我们回顾了优质数据的 ROC 标准，并详细探讨了劣质数据在可靠性、原始性、全面性、时效性和引用性上的缺陷。理解这些概念对于确保分析结果的准确性和有效性至关重要。

至此，我们关于数据偏见与可信度的探索就告一段落了。完成一些练习后，你将准备好迎接接下来的挑战。期待你的进步。😊

016：为数据探索做准备 - 数据伦理基础 📊⚖️

在本节课中，我们将要学习数据伦理的基础知识。数据伦理是数据分析中至关重要的一环，它为我们收集、共享和使用数据提供了道德准则。理解这些原则，能帮助我们在处理数据时做出更负责任、更公平的决策。

什么是伦理？

上一节我们介绍了课程主题，本节中我们来看看“伦理”的一般概念。伦理是一套指导人们生活的准则。大多数人都有个人道德准则来帮助自己在世界中行事。

年轻时，伦理可能很简单，例如“永不撒谎、欺骗或偷窃”。但随着年龄增长，它演变成一个更广泛的“可为与不可为”的清单。我们的个人伦理会发展并变得更加理性，为我们面对生活中的问题、挑战和机遇时提供一种道德指南针。

从个人伦理到数据伦理

当我们分析数据时，同样会面临问题、挑战和机遇。但我们不能仅仅依赖个人道德准则来解决它们。正如之前所学，我们都有个人偏见，更不用说那些让伦理问题更难处理的潜意识偏见了。

因此，我们有了数据伦理。这是分析学的一个重要方面，我们将在本视频中探讨。

首先，让我们回到伦理的一般概念。虽然哲学界对其确切定义仍有讨论，但一个实用的观点是：伦理指的是关于对错的、有充分依据的标准，它规定了人类应当做什么，通常涉及权利、义务、社会利益、公平或特定美德。

和数据一样，数据也有需要遵守的标准。数据伦理指的是关于对错的、有充分依据的标准，它规定了数据应如何被收集、共享和使用。

由于大规模收集、共享和使用数据的能力相对较新，监管和治理这一过程的规则仍在发展中。数据隐私的重要性已得到全球各国政府的认可，并开始制定数据保护立法来帮助保护人们及其数据。欧盟的《通用数据保护条例》（GDPR）正是为此而生。

在政策制定者继续工作的同时，像谷歌这样的公司有责任引领这一努力，并将一如既往地提供让隐私对每个人成为现实的产品。

数据伦理的概念，以及与透明度和隐私相关的问题，都是这一过程的一部分。数据伦理试图探究公司在保护并负责任地使用其收集的数据方面，应承担何种责任的根本问题。

数据伦理的六个核心方面

数据伦理包含许多不同方面，但我们将重点介绍以下六个：所有权、交易透明度、同意、货币价值、隐私和开放性。我们稍后会探讨隐私和开放性。首先从所有权开始。

以下是数据伦理的六个核心方面：

1. 所有权

这回答了“谁拥有数据”的问题。拥有数据的并非投入时间和金钱进行收集、存储、处理和组织的机构。提供原始数据的个人才拥有数据的所有权，他们对数据的使用、处理和共享方式拥有主要控制权。

2. 交易透明度

这个概念是指，所有的数据处理活动和算法，都应当能够被提供数据的个人完全理解和解释。这是为了回应之前讨论过的对数据偏见的担忧。

数据偏见是一种系统性地使结果偏向某个方向的错误。有偏见的结果可能导致负面后果。因此，为了避免这种情况，提供透明的分析非常有帮助，尤其是对那些共享数据的人。这能让人们判断结果是否公平、无偏见，并允许他们提出潜在的担忧。

3. 同意

这是数据伦理的另一个方面。同意是指个人在同意提供数据之前，有权明确了解其数据将如何及为何被使用的具体细节。

他们应该知道诸如“数据为何被收集？”、“将如何使用？”、“将存储多久？”等问题的答案。给予同意的最佳方式可能是数据提供者与数据请求者之间的对话。但在当今大量活动发生在线上时，同意通常只表现为一个带有更多详情链接的“条款与条件”复选框。

必须承认，并非每个人都会点击阅读那些细节。同意之所以重要，是因为它能防止所有人群受到不公平的针对性对待，这对于经常被有偏见的数据不成比例地错误代表的边缘化群体来说，是一件非常重要的事。

4. 货币价值

个人应该意识到，因其个人数据的使用而产生的金融交易以及这些交易的规模。因此，如果你的数据正在帮助资助公司的某项努力，你应该了解这些努力是关于什么的，并有机会选择退出。

5. 隐私与开放性

数据伦理的最后两个方面——隐私和开放性，值得在这个数据舞台上拥有自己的聚光灯。接下来，你将明白原因。

总结

本节课中，我们一起学习了数据伦理的基础知识。我们探讨了伦理的一般概念，并将其引申到数据领域，定义了数据伦理。我们详细介绍了数据伦理的六个核心方面：所有权、交易透明度、同意、货币价值、隐私和开放性。理解这些原则是成为一名负责任的数据分析师的关键第一步，它能确保我们在利用数据创造价值的同时，始终尊重和保护数据提供者的权利与利益。

017：数据伦理的重要性

在本节课中，我们将学习数据伦理的核心概念。数据伦理不仅关乎技术操作，更关乎数据如何与社会互动，以及如何影响人们的生活。理解并实践数据伦理，是每一位数据分析师和科学家的基本责任。

上一节我们介绍了数据探索的准备流程，本节中我们来看看数据伦理这一至关重要的维度。

我是Alex，是谷歌的一名研究科学家。我的团队名为“伦理人工智能团队”。我们不仅关注人工智能和技术如何运作，更关心它如何与社会互动，以及它可能如何帮助或伤害边缘化群体。

当我们谈论数据伦理时，我们思考的是：什么是使用数据的正确与良好方式？哪些数据使用方式将对人们有益？数据伦理不仅关乎最小化伤害，更关乎“行善”这一概念——我们如何通过使用数据来切实改善人们的生活。

当我们思考数据伦理时，我们需要考虑：

谁在收集数据？
为什么收集数据？
如何收集数据？
收集数据是为了什么目的？

由于组织通常有盈利、汇报或提供分析的需求，我们也必须时刻牢记：这一切最终将如何真正使人们受益？数据中所代表的人们会因此受益吗？我认为，这是作为数据科学家或数据分析师永远不应忽视的一点。

以下是数据伦理实践中需要牢记的几个关键原则：

首先，数据即人。有抱负的数据分析师需要记住，你将遇到的大量数据都来源于人。因此，归根结底，数据即人。你对那些在数据中被代表的人们负有责任。

其次，思考如何保护数据的隐私性。在我们的实践中，不能将数据实例视为可以随意抛到网上的东西。必须考虑如何保护这些信息及其相似物（如图像、声音或文本）的隐私。

此外，我们需要思考如何建立机制，赋予用户和消费者对其数据的更多控制权。仅仅说“我们收集了所有这些数据，请相信我们”是不够的。我们必须确保存在可行的方式，让人们能够同意提供数据，并能够要求撤销或删除这些数据。

因此，在数据不断增长的同时，我们需要赋予人们控制自己数据的能力。未来的趋势是数据将持续增长，我们尚未看到任何数据会减少的迹象。随着数据的增长，这些问题将变得越来越突出，思考它们也变得越来越重要。

本节课中我们一起学习了数据伦理的核心要义：数据背后是人，我们的工作负有对“人”的责任。这要求我们在收集、处理和分析数据时，始终将受益性、隐私保护和用户控制权作为基本原则。牢记这些，是成为一名负责任的数据从业者的第一步。

018：谷歌数据分析师第三课《为数据探索做准备》- 数据隐私优先 🛡️

在本节课中，我们将深入探讨数据伦理中的一个核心且个人化的领域：数据隐私。我们将了解数据隐私的定义、其重要性、个人权利以及企业在保护数据方面的责任。

上一节我们介绍了数据伦理的多个方面，本节中我们来看看其中最关乎个人的一个领域：隐私。

隐私是个人化的。我们可能都以自己的方式定义隐私，并且我们都有权享有它。无论是家庭成员在使用共享电脑时需要隐私，青少年只想与特定的人分享自拍，还是公司希望保护客户的信用卡信息安全，我们都关心自己的数据如何被使用和共享。

在当今文化中，数据隐私至关重要，因此让我们全面探讨它。

谈论数据隐私，意味着在任何数据交易发生时，保护数据主体的信息和活动。这有时被称为信息隐私或数据保护。它关乎数据的访问、使用和收集。它也涵盖个人对其数据的合法权利。

这意味着像你我这样的人，其私人数据应受到保护，免受未经授权的访问；应享有数据不被滥用的自由；拥有检查、更新或更正数据的权利；能够同意他人使用我们的数据；并拥有访问自身数据的合法权利。

对于公司而言，这意味着实施隐私保护措施以保护个人数据。

数据隐私非常重要，即使你并非每天都思考这个问题。数据隐私的重要性已得到全球各国政府的认可，并已开始制定数据保护立法，以帮助保护人们及其数据。

能够信任公司处理你的数据至关重要。正是这种信任，才让人们愿意使用公司的产品、分享他们的信息等等。信任是一项重大的责任，不容轻视。

涉及数据伦理的最后一个方面是开放性，即数据的自由访问、使用和共享。我们将在另一个视频中讨论这一点。

你正在成为一名有道德的数据分析师的道路上稳步前进。

本节课中，我们一起学习了数据隐私的核心概念。我们明确了数据隐私的定义，它关乎个人信息的保护以及在数据交易中的权利。我们了解到，个人拥有免受未经授权访问、数据不被滥用、以及控制自身数据的多项权利。同时，企业有责任建立措施来保护用户数据，而建立信任是这一切的基础。理解并优先考虑数据隐私，是每一位数据分析师职业素养的重要组成部分。

019：19_02_05_Andrew_数据的伦理使用.zh_en - GPT中英字幕课程资源 - BV19X4y1n7Xd

🧭 课程概述

在本节课中，我们将要学习数据与人工智能的伦理使用。课程由谷歌伦理人工智能研究组的高级开发者倡导者Andrew主讲，他将解释负责任地使用数据和技术的重要性，以及不这样做可能带来的风险。

🤖 引言：技术的社会责任

我的名字是Andrew。我是谷歌伦理人工智能研究组的一名高级开发者倡导者。作为一名高级开发者倡导者，我致力于帮助更广泛的社区构建对社会负责的人工智能系统。

不负责任地使用这项技术的一个后果，是可能放大或强化不公平的偏见。

⚖️ 算法与决策的影响

上一节我们介绍了技术的社会责任，本节中我们来看看算法在现实世界中的应用及其影响。

现在，这些算法和数据集经常被用于决定结果的场景中。无论是为个人筛选内容，还是决定他们是否有资格获得贷款，所有这些不同的决策过程都依赖于在该背景下使用的算法和数据集。

因此，如果处理不当，这些系统的结果可能会对代表性不足的社区和少数群体造成潜在伤害。

🌱 行业与社区的持续学习

关于数据和人工智能的负责任使用，该领域、行业和社区正在学习很多内容。我尝试做的事情，是整理所有这些不同的要素。

以下是这些要素的具体内容：

与谷歌内部的各种研究小组合作。
与谷歌内部的各种产品团队合作。
与更广泛的社区互动。

我们必须超越常规，去教育那些致力于为善而构建这项技术，但可能不一定拥有资源或机构社区智慧来真正实现其良好意图的人们。

💡 技术的益处与集体责任

事情的真相是，人工智能、数据以及围绕它们构建的任何技术都带来了巨大的益处。它正在改善许多人的生活，使我们能够做到以前无法做到的事情，为我们提供了思考生活中其他事情的便利。

这更说明了我们集体共同努力的重要性，不仅仅是一个组织，而是整个社区，甚至是非技术人员，每个人都需要参与进来。这就是我在这里扮演的角色：我努力帮助人工智能在伦理的轨道上共同演进。

而要做到这一点，取决于人工智能负责任使用的民主化。

📚 课程总结

本节课中我们一起学习了数据伦理使用的核心概念。我们了解到，算法和数据集在关键决策中扮演着重要角色，其不当使用可能加剧社会不公。同时，整个行业和社区都在积极学习如何负责任地使用AI，这需要开发者、研究团队乃至公众的集体参与和努力。最终，负责任地使用技术不仅能带来巨大益处，也是技术持续健康发展的基石。

020：谷歌数据分析师第三课《为数据探索做准备》data-preparation 📚

课程概述

在本节课中，我们将要学习开放数据的概念、特征及其重要性。我们将探讨开放数据的定义、核心标准、优势与挑战，并理解它如何赋能数据分析师的工作。

开放数据的定义与核心标准 🗂️

上一节我们介绍了数据伦理的多个方面，本节中我们来看看开放性。

当提及数据时，开放性指的是对数据的免费访问、使用和共享。我们有时称之为开放数据。但这并不意味着我们可以忽略之前讨论过的数据伦理的其他方面。我们仍需保持透明、尊重隐私，并确保对他人拥有的数据已获得使用许可。这仅意味着，如果数据符合高标准，我们就可以访问、使用和共享它。

开放数据通常遵循几项核心标准，以下是其主要方面：

可用性与访问性：开放数据必须作为一个整体提供，最好能通过互联网以便利且可修改的形式下载。
- 示例：网站 data.gov 就是一个很好的例子。你可以下载各行各业的科学与研究数据，文件格式简单，如电子表格。
重用与再分发：开放数据必须在允许重用和再分发的条款下提供，包括将其与其他数据集结合使用的能力。
普遍参与性：每个人都必须能够使用、重用和再分发数据。不应存在对任何领域、个人或群体的歧视。任何人都不能对数据施加限制，例如规定其仅可用于特定行业。

开放数据的优势与影响 ✨

了解了开放数据的标准后，我们来看看它为何如此重要。

开放数据最大的好处之一是，可信的数据库可以得到更广泛的应用。更重要的是，所有优质数据都可以被利用、共享并与其他数据结合。

想象一下，这将对科学合作、研究进展、分析能力和决策制定产生多大的影响。

以下是开放数据带来积极影响的具体领域：

在人类健康领域：开放性使我们能够访问并结合多样化的数据，从而更早地检测疾病。
在政府治理领域：它有助于让领导者承担责任，并为社区服务提供更好的访问渠道。
其可能性和益处几乎是无穷无尽的。

开放数据面临的挑战 ⚠️

当然，每一个伟大的构想都面临挑战。

向开放数据进行技术转型需要大量的资源。互操作性是开放数据成功的关键。互操作性是指数据系统和服务能够公开连接和共享数据的能力。

例如，数据互操作性对于医疗信息系统至关重要。医院、诊所、药房和实验室等多个组织需要访问和共享数据，以确保患者获得所需的护理。这就是为什么你的医生能够将处方直接发送给药房配药——他们拥有允许共享信息的兼容数据库。

但这种互操作性需要大量的合作。尽管开放、及时、公平和简单的数据共享具有巨大的潜力，但其未来将取决于如何有效应对更广泛的挑战。

作为一名数据分析师，我认为越早实现越好。说到这个，我们将在接下来的视频中更详细地讨论开放数据，并观察其实际应用。

课程总结 🎯

本节课中，我们一起学习了开放数据的核心概念。我们明确了开放数据的定义，了解了其必须遵循的可用性、重用性和普遍参与性标准。我们探讨了开放数据在促进协作、推动研究和服务社会方面的巨大优势，同时也认识到实现它所需的技术转型和互操作性挑战。现在，你已经掌握了关于数据伦理的重要原则，可以在你的数据之旅中指导你。任何时候你对数据不确定，请记住你在这里学到的东西。

021：伦理数据使用步骤 🧭

在本节课中，我们将学习数据分析师在评估数据集时应遵循的伦理步骤，以确保从多个伦理视角审视数据，并负责任地使用数据。

我的名字是安德鲁，我是谷歌伦理人工智能研究小组的一名高级开发者倡导者。作为一名分析师，在评估数据集时，你可以做很多事情，以确保你通过不同的伦理视角来审视它。

自我反思与理解影响 🤔

上一节我们介绍了伦理审视的重要性，本节中我们来看看具体步骤。首先，你需要进行自我反思，理解你正在做的事情及其可能产生的影响。

挑战固有思维的最佳方式是质疑我们自身。例如，我们团队试图构建这个，是因为我们认为它将有助于改进产品，或将为我们下一步的决策提供信息。

考虑数据内外的群体 👥

以下是进行伦理思考时需要扩展的视角范围：

不仅要考虑与你并肩工作的同事。
也要考虑数据中所代表的群体。
同时考虑数据中未被代表的群体。

然后，利用这种直觉继续质疑数据的完整性、质量和代表性。接着，思考与你工作相关的各种潜在危害和风险。

评估数据风险与危害 ⚠️

例如，如果你认为保留数据更长时间会带来益处，你可能也需要理解持有这些数据的风险。如果你持续查看、存储和检索这些数据，可能会产生什么潜在的危害？

审视数据收集与沟通流程 📢

更进一步，还需要理解数据收集的同意流程是怎样的。你是否告知了数据提供者数据将如何被使用？沟通渠道是怎样的？这些都是应用不同伦理视角时需要关注的问题。

负责任地呈现与使用数据 📊

通过对分析采取更细致入微的方法，意识到不仅在分析数据集时，而且在呈现数据、描绘结果、以及在决策过程中如何使用这些结果时，所有可能出现的风险和危害。

无论你是向管理层、高管还是更广泛的受众呈现这些数据，所有这些在负责任地使用数据方面都至关重要。

数据分析师的关键角色 ⚖️

作为数据分析师，你站在一个关键的交汇点上：一边是可能从正在开发的技术中受益的人群，另一边是你组织中那些试图做出更明智决策，以决定是否将该项技术投入生产的人。

这可能让人感觉责任重大，事实也确实如此。但这同时也非常关键，它恰恰说明了你的工作所能产生的巨大影响。

本节课中我们一起学习了伦理数据使用的核心步骤：从自我反思开始，扩展考虑所有相关群体，评估数据风险，审视收集流程，并最终以负责任的方式呈现和使用数据。作为数据分析师，理解并践行这些步骤对于确保技术的公平、公正发展至关重要。

022：谷歌数据分析师第三课《为数据探索做准备》 🗃️

在本节课中，我们将要学习数据库的核心概念、元数据的重要性，以及如何为分析准备数据。这是数据分析流程中“准备”阶段的关键部分。

到目前为止，你已经了解了如何收集和分析数据来解决各种问题。

接下来，我们将深入学习关于数据库的一切知识。作为回顾，数据库是存储在计算机系统中的数据集合，但存储仅仅是开始。

你将发现数据库如何让你能够找到分析所需的精确信息片段。你还将学习如何对数据进行排序，以便聚焦于所需内容，从而生成富有洞察力的报告等等。

深入探索：元数据 📊

上一节我们介绍了数据库的基础，本节中我们来看看一个更深层的概念——元数据。

你可能听过有人说“哇，这太元了”。通常他们指的是某事物自我指涉或具有完全的自我意识。例如，如果一本书中的角色知道自己在书里，这就是“元”。如果你拍摄一部关于拍摄纪录片的纪录片，那也是“元”。在谷歌，我经常分析自己分析数据的方式，这绝对是“元”的。

我这样做是为了对我的工作进行质量检查，确保我的方法是公平的，并确保我注意到了任何可能影响结果的偏见。作为一名分析师，你也应该这样做。有时我们离自己的数据太近了，所以退一步问自己我们的流程是否合理是关键。

但让我们稍微退一步，定义一下元数据。元数据是关于数据的数据。正如我所说，这很深奥。

元数据的重要性与作用 🔍

理解了元数据的定义后，我们来看看它在实际工作中的关键作用。

在处理数据库时，元数据极其重要。可以把它想象成一个参考指南。没有这个指南，你拥有的只是一堆没有上下文解释其含义的数据。

以下是元数据提供的关键信息：

数据的来源。
数据的创建时间和方式。
数据的全部内容。

数据准备：从数据库到电子表格 📥

了解了数据的背景信息后，下一步就是将其提取出来进行分析。

接下来，你将学习如何从数据库或其他来源获取数据并将其导入电子表格。你可以通过直接导入或使用 SQL 生成请求来实现。

一旦数据进入电子表格，可能性就是无限的。我们将要涵盖的所有内容都是数据分析流程“准备”阶段中非常重要的一部分。这是数据分析师弄清楚哪种数据对他们最有帮助的方式。如果你拥有正确的数据，你成功解决业务问题的可能性就会大得多。

那么，准备好发掘数据库的惊人力量了吗？我们开始吧。

本节课中我们一起学习了数据库的核心作用、元数据（关于数据的数据）的定义与重要性，以及如何将数据从数据库导入电子表格进行分析准备。掌握这些是确保后续分析工作成功的基础。

023：23_03_02_数据库特性与组件.zh_en

📚 课程概述

在本节课中，我们将要学习数据库的核心特性与组件。数据库是数据分析师不可或缺的工具，理解其内部结构对于高效管理和访问数据至关重要。我们将重点介绍关系型数据库、表之间的关系，以及主键与外键这两个核心概念。

🏗️ 数据库简介与结构

数据库是存储和组织数据的工具，它使数据分析师能够更轻松地管理和访问信息。数据库帮助我们更快地获取洞察、做出数据驱动的决策并解决问题。

你已经对数据库是什么以及数据分析师如何使用它们有了一些了解。现在，让我们更深入地学习数据库的特性和组件。

以下是一个简单的数据库结构示例，它包含一个汽车制造商的信息表。

数据库的顶层包含汽车经销商、产品详情和维修零件等表。当你选择其中一个表并深入下一层时，你会找到每个项目的更具体细节。

🔗 关系型数据库

这种结构被称为关系型数据库。关系型数据库包含一系列相互关联的表，这些表可以通过它们之间的关系连接起来。

为了让两个表建立关系，它们内部必须存在一个或多个相同的字段。

例如，在这个结构中，branch_ID 字段同时存在于这个表和那个表中。

如果一个字段同时存在于两个表中，我们就可以用它来将这两个表连接起来。branch_ID 字段就是连接这些表的关键。

🔑 理解主键与外键

有两种类型的关键字段：主键和外键。

主键

主键是一个标识符，它引用一个每一行值都唯一的列。你可以将其视为表中每一行的唯一标识符。

在我们的经销商信息表中，Branch_ID 是主键。

同样，在每辆车的产品详情表中，VIN 是我们的主键。

作为分析师，你可能需要创建表。如果你决定包含一个主键，它必须是唯一的，这意味着没有两行可以拥有相同的主键。此外，它不能为空或空白。

外键

还有外键。外键是表中的一个字段，它是另一个表中的主键。

换句话说，外键是一个表连接到另一个表的方式。

因为我们的维修零件表包含每个汽车零件的信息，所以主键是 part_ID。维修零件表中的每一行代表一个唯一的零件。该表中的所有其他键，例如 VIN，都是外键，它们允许维修零件表连接到其他表。

如你所见，一个表只能有一个主键，但可以有多个外键。

📝 核心概念总结

理解主键和外键可能有些棘手，但后续你将有很多机会进行练习。以下是一个概括性的总结：

主键：用于确保特定列中的数据是唯一的。它唯一地标识关系数据库表中的一条记录。一个表中只允许有一个主键，并且它们不能包含空值或空白值。
- 公式/代码描述：PRIMARY KEY (column_name)
外键：关系数据库表中的一个列或一组列，用于在两个表的数据之间提供链接。它引用一个表中的字段，该字段是另一个表的主键。
- 公式/代码描述：FOREIGN KEY (column_name) REFERENCES other_table(primary_key_column)

最后，需要注意的是，一个表中允许存在多个外键。

🎯 课程总结与展望

在本节课中，我们一起学习了数据库的基本结构、关系型数据库的概念，以及主键与外键的定义、区别和作用。主键是表的唯一标识，而外键是表间建立联系的桥梁。

你可以随时重看本视频，以确保你清楚地理解了主键和外键。接下来，你将开始练习如何访问和分析实际数据库中的数据，这将是一个绝佳的机会，来加深你对主键、外键、数据库组织方式的理解，以及思考如何在未来的分析职业生涯中使用数据库。

024：揭秘元数据

在本节课中，我们将要学习一个数据库管理中的核心概念——元数据。我们将了解什么是元数据，它在数据分析中的重要性，以及数据分析师在工作中会遇到的三种主要元数据类型。

现在你已经了解了在数据库中组织数据的不同方式，接下来我们来探讨如何描述这些数据。在本视频中，我们将开始探索元数据，这是数据库管理的一个非常重要的方面。

元数据是一个比较抽象的概念，因此让我们从一个简单的日常例子开始。你是否知道，每次用智能手机拍照时，数据都会被自动收集并存储在那张照片中？你可以自己查看一下：在电脑上选择任意一张照片。这里有一张我朋友的小狗 Rudy 和 Matilda 的可爱照片。在你的照片上，右键点击并选择“获取信息”或“属性”。

这将为你提供照片的元数据，它可能会告诉你文件的类型、拍摄的日期和时间、地理位置（拍摄地点）、用于拍摄的设备类型等等。非常神奇，对吧？

以下是另一个例子。每次你发送或接收电子邮件时，元数据也会随消息一起发送。你可以通过点击“显示原始邮件”或“查看邮件详情”来找到它。一封电子邮件的元数据包括其主题、发件人、收件人、发送日期和时间。元数据甚至知道在发件人按下发送键后，邮件被投递的速度有多快。

好的，所以元数据是用来描述诸如照片或电子邮件中所包含数据的信息。请记住，元数据不是数据本身，而是关于数据的数据。在数据分析中，元数据帮助数据分析师解读数据库内数据的内容。这就是为什么在处理数据库时，元数据如此重要——它告诉分析师数据的全部信息，从而使得利用数据解决问题和做出数据驱动的决策成为可能。

作为一名数据分析师，你会遇到三种常见的元数据类型：描述性元数据、结构性元数据和管理性元数据。

以下是这三种类型的详细介绍：

描述性元数据：这种元数据描述一条数据，并可用于在以后识别它。例如，图书馆中一本书的描述性元数据将包括你在书脊上看到的代码（称为唯一的国际标准书号，即 ISBN），以及书的作者和标题。
结构性元数据：这种元数据指示一条数据是如何组织的，以及它是否属于一个或多个数据集合。让我们回到图书馆的例子，结构性数据的一个例子就是书页如何组合在一起形成不同的章节。值得注意的是，结构性元数据还会跟踪两个事物之间的关系。例如，它可以向我们展示一本书稿的数字文档实际上是现在印刷版书籍的原始版本。
管理性元数据：这种元数据指示数字资产的技术来源。当我们查看照片内部的元数据时，那就是管理性元数据。它向你展示了文件的类型、拍摄的日期和时间等等。

最后，有一个想法可以帮助你理解元数据：如果你正要去图书馆挑选一本书，你可以研究一本书的标题、作者、长度、章节数量——这些都是元数据，它能告诉你很多关于这本书的信息。但是，你必须真正阅读这本书才能知道它的具体内容。同样，你可以阅读关于数据分析的知识，但你必须学习这门课程才能获得谷歌数据分析师证书。所以，请继续前进，以获得新的视角。

本节课中我们一起学习了元数据的概念及其重要性。我们了解到元数据是“关于数据的数据”，它能帮助我们理解和组织信息。我们还详细探讨了数据分析师在工作中会遇到的三种主要元数据类型：描述性、结构性和管理性元数据。掌握元数据是有效管理和分析数据的关键一步。

025：谷歌数据分析师第三课《为数据探索做准备》 📊

课程概述

在本节课中，我们将要学习元数据及其在数据管理中的核心作用。我们将了解元数据如何帮助组织创建单一事实来源，确保数据质量，并探索元数据专家的日常工作。

元数据与数据管理 🗂️

上一节我们讨论了数据准备的重要性，本节中我们来看看元数据如何作为分析师工具箱中的强大工具。

元数据和元数据存储库是数据分析师工具箱中非常强大的工具。正如我们之前讨论的，数据分析师使用它们来创建单一事实来源。它们能保持数据的一致性和统一性，并确保我们处理的数据是准确、精确、相关和及时的。这些工具还通过标准化我们的流程，使数据的访问和使用变得更加容易。

在本视频中，我们将探索元数据的更多组成部分，并学习元数据分析师如何工作以保持事物的条理性。

数据管理的挑战与元数据的解决方案 🔍

我们知道，数据的数量在不断增长，但许多企业并没有充分利用他们的数据。有时他们不知道自己拥有什么数据，有时他们找不到数据，或者有时企业根本不信任这些数据，尤其是在大公司中。

数据可能跨越众多不同的流程和系统，从这么多地方汇集数据可能是一个巨大的挑战。例如，假设一家公司最初在其办公室使用传统的数据存储系统。但随着其拥有的数据量持续扩张，也需要云存储。此外，这家公司还可能从合作伙伴组织访问和使用第二方或第三方数据。

这些系统中的每一个都有其自身的规则和要求。因此，每个系统都以完全不同的方式组织数据，增加了更多的复杂性。难怪这么多组织难以在正确时刻找到正确的数据。

另一方面，元数据存储在单一的中央位置，为公司提供关于其所有数据的标准化信息。这通过两种方式实现：

以下是元数据实现标准化的两种方式：

第一，元数据包含关于每个系统位于何处以及数据集在这些系统内位于何处的信息。
第二，元数据描述了所有数据在不同系统之间是如何连接的。

数据治理：元数据的重要方面 ⚖️

元数据的另一个重要方面是所谓的数据治理。

数据治理是确保公司数据资产得到正式管理的过程。这使组织能更好地控制其数据，并帮助公司管理与数据安全、隐私、完整性、可用性以及内部和外部数据流相关的问题。

需要指出的是，数据治理不仅仅是标准化术语和程序。它关乎每天处理元数据的人员的角色和职责。这些人就是元数据专家，他们组织和维护公司数据，确保其尽可能达到最高质量。

以下是元数据专家的主要职责：

创建基本的元数据标识和发现信息。
描述不同数据集协同工作的方式。
解释许多不同类型的数据资源。
创建每个人都遵循的非常重要的标准，以及用于组织数据的模型。

元数据分析师的角色 🤝

无论他们在科技公司、非营利协会还是金融机构工作，元数据分析师都有一个共同点：他们都是出色的团队合作者。他们热衷于通过与同事和其他利益相关者分享数据来使数据变得可访问。

因此，如果你正在寻找一个鼓励你探索数字世界所提供的一切数据的角色，那么选择成为元数据分析师的道路可能是一个正确的选择。

课程总结

本节课中我们一起学习了元数据在数据管理中的核心价值。我们了解到，元数据通过提供数据的标准化信息和连接关系，帮助解决数据分散和复杂的挑战。数据治理框架和元数据专家在其中扮演着关键角色，他们确保数据资产的质量、安全与可用性。无论企业规模大小，在面临市场趋势和竞争时，数据分析都能帮助他们回答关键问题并持续改进。

026：谷歌数据分析师第三课《为数据探索做准备》 📊

在本节课中，我们将学习元数据的概念及其在数据分析项目中的关键作用。元数据是理解大型数据集的钥匙，它能帮助我们高效地探索数据、规划项目并与团队有效沟通。

我叫梅根，是谷歌的代理测量负责人。我的主要工作是帮助广告代理机构揭开测量和分析的神秘面纱。我的服务对象包括那些负责为广告主执行媒体计划的人，以及那些对衡量媒体为客户带来的影响感兴趣的人。

我从事这项工作大约17年了。在此期间，我见证了该领域的诸多演变，包括数据可用性的提升，以及各种建模技术变得更加先进和易于使用。看到分析如何变得更加主流，以及人们如何对它越来越感兴趣，这是一段非常酷的旅程。

什么是元数据？ 🔑

元数据本质上是更大数据集的钥匙。它有助于描述你将处理的数据中行和列所包含的内容。元数据可以看作是一个更复杂信息集合的简写或“线索”版本。

元数据的作用与价值 💡

上一节我们定义了元数据，本节中我们来看看它的具体作用。

它有助于你掌握单个可能访问的数据集中包含的内容。在任何分析项目的探索阶段，元数据都是一个重要部分。当你与客户或供应商合作时，它帮助你理解可用于解决问题的资源，以及可能缺失的部分。它以一种简单直接的方式为你提供了解锁数据的钥匙，并且是一个极佳的沟通工具。

元数据在实际项目中的应用案例 🏗️

理解了元数据的基础价值后，我们通过一个实际案例来看看它如何解决复杂问题。

当我为一家广告主工作时，我们尝试构建一个所谓的数据湖。本质上，这是将分析中可能想使用的所有数据源汇集到一个地方，这可能会非常棘手。

元数据的好处之一是帮助我们找出数据源可能重叠的地方，找出有共同之处的数据源，以及我们从每个数据集中获得的独特信息片段。因此，当我们思考如何应对这个庞大而重要的项目时，我们能够利用元数据快速、轻松地触及我们试图解决的基本结构。

元数据在团队协作中的意义 🤝

除了技术层面的应用，元数据在促进团队理解与合作方面也扮演着关键角色。

当你与那些可能不以分析为日常工作的人合作时，让他们获得“顿悟”时刻，帮助他们理解测量和分析是如何帮助他们实现目标的工具，这一点非常重要。能够将之前难以理解的东西变得对该团队更易理解，让他们感到可以放心地付诸实践，这非常重要，也是一种极佳的合作成果。

本节课总结：本节课我们一起学习了元数据的概念。我们了解到，元数据是描述数据的数据，它像一把钥匙，能帮助我们快速理解数据集的结构、发现数据源间的关联与差异，并作为有效的沟通工具，促进团队协作，让复杂的数据信息变得更容易被非技术人员理解和应用。

027：数据分析师课程第三课《为数据探索做准备》📊

在本节课中，我们将学习数据分析师如何从不同渠道获取数据。了解数据的来源是数据分析工作的第一步，它决定了后续分析的基础和质量。

内部数据与外部数据

上一节我们介绍了数据分析的基本流程，本节中我们来看看数据的两种基本类型：内部数据和外部数据。

内部数据是指存在于公司自身系统内的数据，通常由公司内部生成。内部数据有时也被称为主要数据。

外部数据是指在组织外部存在和生成的数据。它可以来自多种渠道，包括其他企业、政府机构、媒体、专业协会、学校等。外部数据有时被称为次要数据。

内部数据的获取与价值

根据数据分析项目的需求，收集内部数据可能比较复杂。你可能需要从多个不同来源和部门获取数据，包括销售、营销、客户关系管理、财务、人力资源甚至数据档案库。

但这份努力是值得的。内部数据对企业有许多优势：

它提供的信息与你试图解决的问题直接相关。
由于公司已经拥有这些数据，因此访问是免费的。

凭借内部数据，分析师可以在不超出公司范围的情况下处理各种数据项目。但有时内部数据无法提供完整的图景。

外部数据的应用

在内部数据不足的情况下，数据分析师可以转向外部数据，并将这些信息应用于分析中。

例如，作为医疗保健分析师，我们经常与其他医疗保健组织或非营利组织合作，利用他们的数据进行更深入的分析，并增加更宏观的行业视角。

开放数据倡议

在之前的视频中，你了解到开放性通过开放数据倡议为分析师创造了大量可用数据。重申一下，开放性或开放数据指的是数据的免费访问、使用和共享。

例如，美国政府通过 data.gov 网站向公众提供了数十万个数据集。

以下是这些开放数据倡议的几个目的：

提高政府活动的透明度，例如让公众了解资金的使用去向。
帮助公民了解投票和本地议题。
通过让人们参与公共规划或向政府提供反馈来改善公共服务。
通过帮助个人和公司更好地理解他们的市场，从而推动创新和经济增长。

公共数据库示例

谷歌实际上托管了许多公共数据库，包含科学、交通、经济、气候等领域的信息。

例如，一家共享单车公司可以使用我们公共交通数据库中的交通数据来查看哪些道路最繁忙，然后选择这些地点投放单车，以减少道路上的汽车数量，并为人们提供另一种交通选择。

总结

本节课中我们一起学习了内部数据和外部数据的区别、各自的获取方式以及价值。你现在已经熟悉了内部和外部数据以及如何访问它们。接下来，我们将学习如何将你从不同来源收集的所有数据导入到电子表格中。

028：谷歌数据分析师第三课《为数据探索做准备》 📊

在本节课中，我们将学习如何从电子表格和数据库等不同来源实际导入数据。你已经了解了内部和外部数据以及如何准备它们，现在我们将进入实际操作阶段。

从电子表格导入数据 📁

上一节我们介绍了数据准备的基本概念，本节中我们来看看如何从本地文件导入数据。

有时你需要从文件中上传电子表格，例如CSV文件。CSV代表逗号分隔值，这种文件以表格格式保存数据。现在，让我们将这样一个文件导入到一个新的电子表格中。

以下是操作步骤：

选择“文件”，然后选择“导入”。
选择“上传文件”。
导航到文件位置。
打开文件并将其作为新工作表插入。

理解CSV文件格式 🔍

CSV文件使用纯文本，并通过特定字符进行分隔。

在导入时，每一列或字段都通过分隔符清晰地区分开来。正如你所知，CSV是逗号分隔的，通常电子表格应用会自动检测这些分隔符。

但有时你可能需要在此窗口中通过选择不同选项来指明分隔符是另一个字符或空格。

此外，如果你计划处理该数据集，通常需要将数据转换为文本、数字或其他格式，但对于报告目的，纯文本格式即可。因此，我们可以保留这些字段的默认设置。最后，选择“导入数据”。

现在，我们的CSV文件已准备好在电子表格中使用了。

实际应用场景：医疗数据分析 🏥

我大部分工作时间都在分析包含医疗信息的电子表格。我通常从查看较大的数据集开始，然后将其子集提取到电子表格中进行处理。

例如，我可能想分析谷歌搜索中对某些医疗服务（如远程医疗）用户需求的逐年增长情况。或者，我可能希望查看来自外部医疗组织或机构的数据集，以更深入地了解这一趋势。

以远程医疗为例，我可能会查看一个列出远程医疗服务提供商的电子表格。电子表格能以多种方式帮助你找到所需的洞察。

从外部数据库导入数据：以WHO为例 🌐

我经常使用的一个数据源是世界卫生组织的数据仓库。这是一个任何人都可以访问开源数据的地方。正如你所见，这里有海量数据可用。

以下是查找数据的方式：

你可以按主题、类别、指标和国家进行搜索。
如果你想了解更多关于仓库中数据的信息，还可以访问世界卫生组织的元数据。

在我们的示例中，我们将查看按国家和年份统计的医生数据。这些信息对于数据分析项目非常有用，例如研究特定人口中可用于治疗患者的医生数量，并与其他人口进行比较。

以下是获取此数据的步骤：

从包含所需数据的网页开始。
将数据下载为CSV文件。
打开一个新的电子表格，通过选择“文件”->“导入”来导入文件。
上传你的文件并选择“导入数据”。

在检查数据确保其看起来整洁后，我们可以为其添加标题并开始工作。

总结与预告 📝

本节课中我们一起学习了如何从本地文件和外部数据库（如世界卫生组织仓库）导入CSV格式的数据。虽然信息量很大，但通过更多练习你会更加熟练。

我知道这需要消化很多信息，但你练习得越多，就会越得心应手。接下来，我们将学习如何对数据进行排序和筛选，以专注于与你相关的信息。😊

029：谷歌数据分析师第三课《为数据探索做准备》data-preparation 📊

课程概述

在本节课中，我们将学习如何通过排序与筛选来聚焦于与待解决问题相关的数据。当处理大型、复杂的电子表格时，这项技能至关重要，它能帮助我们从海量信息中快速定位和分析所需内容。

聚焦相关数据

在之前的视频中，你已经了解了内部和外部数据。现在，我将展示如何仅关注与你试图解决的问题相关的数据。

如果你正在处理一个非常庞大且复杂的电子表格，这项技能会非常有用。数据分析师经常遇到这种情况。拥有大量数据会使快速查找和分析所需信息变得困难。

没有两个分析项目是完全相同的。通常，数据分析师处理、查看和使用数据的方式也大相径庭，即使数据来自完全相同的来源。这里有一个例子。

请看这个显示公司销售代表及其工作地点的电子表格。

不同的数据分析师可能希望从这个电子表格中获得不同的信息，这时排序和筛选就派上用场了。

对电子表格中的数据进行排序和筛选有助于我们自定义数据的呈现方式。它们还能组织数据，使分析师能够聚焦于重要的部分。可以把它想象成我们数据的放大镜。

数据排序

让我们从排序开始。排序涉及将数据排列成有意义的顺序，以便于理解、分析和可视化。

数据可以按升序或降序、字母顺序或数字顺序进行排序。

排序可以在整个电子表格中进行，也可以仅在单个列或表格中进行。你还可以按多个变量进行排序。例如，如果我们的数据包含城市和州字段，我们可以先按城市排序，然后再按州排序。

任何时候对数据进行排序，首先冻结标题行总是一个好主意。为此，需要高亮显示该行。然后从“视图”菜单中选择“冻结”和“1行”。

这将锁定该行。现在，当我们向下滚动工作表时，标题行保持可见，因此我们知道每一列的类别。看起来不错，现在让我们对整个电子表格进行排序。

我们将首先按城市排序。为此，选择城市列。然后使用下拉箭头对工作表进行排序，选择“A到Z”。

这将根据所选列作为主要排序标准，将所有列按行从A到Z排序。城市现在按字母顺序排列，并且它们仍然与相应的州、销售代表和汽车零部件分组在一起。在排序特定部分时，每一行的详细信息会自动保持在一起，正如你在这里看到的。

多条件排序是另一个非常有用的数据分析工具。例如，假设我们想按销售代表工作的城市和州查看列表。

首先，我们选择整个数据集。然后选择“数据”和“排序范围”。在对话框中，确保“数据包含标题行”被高亮显示。这样，A行（城市、州、销售代表和汽车零部件）就不会成为排序的一部分。

然后在“排序依据”下拉菜单中，选择“州”和排序顺序“A到Z”。现在添加另一个排序列。在“然后按”下拉菜单中，选择“城市”和排序顺序“A到Z”。最后，选择“排序”。

现在我们可以搜索数据，轻松找到在特定州和城市工作的销售代表。

当你想要按字母或数字顺序查看电子表格中的所有内容时，排序非常有用。但有时数据分析师希望隔离特定的信息片段，为此，他们会使用筛选器。

数据筛选

筛选意味着仅显示符合特定条件的数据，同时隐藏其余部分。

筛选通过仅显示我们需要的信息来简化电子表格。例如，我们可以添加一个筛选器，只查看处理特定产品的销售代表。

为此，我们首先选择“数据”并“创建筛选器”。选择包含我们需要数据的列，在本例中是“汽车零部件”。筛选按钮将出现在每个列标题的角落。

要按汽车零部件筛选我们的电子表格，请单击“汽车零部件”标题中的按钮。在这个例子中，假设我们只想看到处理“Ris”的销售代表。

移除我们不想看到的类别的复选标记，即除了“Ris”之外的所有内容。然后选择“确定”。

筛选器会暂时隐藏任何不符合条件的内容，但请注意，即使它们不可见，当需要再次查看整个电子表格时，它们仍然存在。只需关闭筛选器即可。

课程总结

在本节课中，我们一起学习了如何通过排序和筛选来聚焦于分析所需的相关数据。排序帮助我们将数据组织成有意义的顺序，而筛选则允许我们隔离特定的数据子集。这两者都是数据分析师工具箱中非常重要的工具。在下一个视频中，你将发现更多方法来精确锁定任何数据分析项目所需的确切信息。

030：30_03_01_熟悉BigQuery_沙盒环境与计费选项.zh_en - GPT中英字幕课程资源 - BV19X4y1n7Xd

课程概述 📋

在本节课中，我们将要学习BigQuery提供的不同账户类型。我们将了解如何根据需求选择合适的账户，以及如何访问它们。理解这些选项对于有效且经济地使用BigQuery至关重要。

账户类型介绍

在本课程中，你已经看到BigQuery如何用于查看和分析来自海量源的数据。本节中，我们来探索BigQuery提供的不同账户选项。

BigQuery为你提供了免费使用的选项，同时也提供付费方案。不过，本课程的实践活动不需要付费选项。我们将讨论两种账户类型：沙盒账户和免费试用账户。

沙盒账户 🏖️

沙盒账户是免费提供的，任何拥有谷歌账户的人都可以登录并使用它。

以下是沙盒账户的一些限制：

你最多只能同时拥有 12个项目。这意味着如果你想创建第13个项目，就必须删除原有的12个项目中的一个。
它不允许你向数据库插入新记录或更新现有记录的字段值。这些数据操作语言（DML）操作在沙盒环境中不受支持。

然而，你在本课程的活动中不需要进行这些操作。你可以在BigQuery官方文档中阅读更多关于沙盒账户限制的信息。这是我们将在大多数活动中使用的账户类型。

免费试用账户 🆓

在介绍沙盒账户之前，我们应该谈谈另一种免费使用BigQuery的方式：谷歌云免费试用。

免费试用让你能够以更少的限制，访问BigQuery提供的更多功能。免费试用在头90天内为你提供300美元的信用额度，用于谷歌云服务。

如果你只是使用BigQuery控制台来练习SQL查询，你的花费将远低于这个额度。在你用完300美元信用额度或90天期限后，你的免费试用将到期。届时，你需要手动选择升级到付费账户，才能继续在谷歌云中工作。

计费与升级说明 💳

你的付款方式在免费试用结束后不会被自动扣费。免费试用确实要求你为谷歌云设置一个付款选项，但除非你选择升级账户，否则它不会向你收费。不过，它确实要求你输入一种付款方式。因此，如果你对这个选项感到不安，我们完全理解。

这也是BigQuery沙盒账户存在的原因之一，这样你就不必输入任何付款信息。

对于任何一种账户类型，你都可以随时升级到付费账户，并保留所有现有项目。如果你设置了免费试用账户，但在试用期结束时选择不升级到付费账户，你可以在那时设置一个免费的沙盒账户。

课程总结 🎯

本节课中，我们一起学习了BigQuery的两种主要免费访问方式：沙盒账户和免费试用账户。我们了解了沙盒账户的便利性及其限制，也探讨了免费试用账户提供的更多功能及其计费规则。理解这些选项将帮助你在学习和实践中，根据自身需求和舒适度，选择最合适的BigQuery使用方式。

031：谷歌数据分析师第三课《为数据探索做准备》 📊

在本节课中，我们将学习如何通过排序、筛选以及编写SQL查询来为数据分析做准备，从而从海量数据中精准定位所需信息。

你已经了解到，在电子表格中对数据进行排序和筛选有助于数据分析师定制信息。定制数据能让其更具意义，也更容易理解、分析和可视化。

你还发现，有些电子表格可能极其冗长和复杂。因此，懂得如何聚焦于你所需的精确数据，同时暂时搁置其余部分，能帮助你专注于分析。

这一点对于数据库同样适用。有时数据量过大，无法下载或无法放入电子表格中。此时，数据分析师会使用SQL创建查询，以便从更大的数据集中查看他们想要的特定数据。

我们之前学过，数据库是存储在计算机系统中的数据集合，而SQL代表结构化查询语言。数据分析师使用查询语言与数据库进行通信。在更早的视频中，你也了解到关系型数据库包含一系列可以相互连接以形成关系的表。这些关系通过主键和外键来体现。

数据分析师通过编写查询语句来从这些表中获取数据。让我们看看这是如何运作的。

从数据浏览开始 🔍

我们将从浏览数据表开始。在这里，我们可以看到有哪些公共数据集可用。在使用数据之前，我们先滚动浏览一下，以了解其大致内容并确保数据是干净的。

有些数据表查看器允许你在编写查询之前预览几行数据。如果你想快速浏览以确保数据集适合你的项目，这会很有帮助。为了演示这一点，让我们查看一个示例数据集。这个数据集显示了一年中照射到屋顶的阳光量。😊

例如，这对于从事太阳能项目的数据分析师来说将非常有用。

我们首先预览数据。然后，我们将从这个数据中选择一个子集，其中包含地区、州、年日照量等信息。

编写查询查看完整数据 📝

要查看完整数据，让我们编写一个查询。第一步是找出数据集的完整正确名称。为此，选择“按邮政编码的太阳能潜力”数据，然后选择“查询表”。

数据集的名称显示在两个反引号内。这是为了帮助我们更轻松地阅读查询。在这种情况下，我们也可以去掉反引号，查询仍然可以运行。😊

点号前的单词代表数据库名称，点号后的单词代表表名称。

现在让我们选择并复制数据名称，因为我们马上会用到它。

接下来，点击加号以编写新查询。大多数查询以 SELECT 关键字开始。然后我们加一个空格。因为我们想查看整个数据集，我们会在后面加上一个星号 *。

星号表示我们希望包含所有列。这是一个很好的快捷方式，因为没有它，我们将不得不键入每个字段名称。接着，我们按回车键并键入 FROM。

FROM 的作用正如其名，它指示数据来自哪里。之后，我们再添加一个空格。现在，我们粘贴之前复制的数据名称。最后，运行查询。

现在，在开始处理数据之前，我们可以仔细检查数据。需要记住的一个重要点是，SQL查询可以用许多不同的方式编写，但仍能提供相同的结果。

例如，我们本可以将此查询写成一长行指令，像这样：

SELECT * FROM `bigquery-public-data.sunroof_solar.solar_potential_by_postal_code`;

我们仍然会得到相同的结果。额外的换行和空格不会影响查询结果，但它们能使你的查询更有条理，对你自己和他人来说都更易阅读。

筛选特定数据 🎯

现在，如果项目不需要所有这些字段，我们可以使用SQL来查看特定的一个或多个数据片段。为此，我们在查询中指定特定的列名。

例如，也许我们只想查看来自宾夕法尼亚州的数据。那么，我们可以像刚才学到的那样开始编写查询：SELECT [空格]，添加星号 *，然后 FROM 我们的太阳能潜力数据库。但这次我们要添加 WHERE 子句。

所以，添加一个空格和 state_name（列名）。现在，因为我们只想查看来自宾夕法尼亚州的数据，我们添加等号和用单引号括起来的单词“Pennsylvania”。在SQL中，单引号表示字符串的开始和结束。最后，重新运行查询。

现在，我们可以只查看宾夕法尼亚州的太阳能潜力数据了。我们已经得到了想要的数据，并准备好开始利用它，这将在后续课程中涉及。😊

本章回顾与总结 🎉

但现在，让我们庆祝完成了另一个模块。你已经涵盖了许多复杂且技术性很强的信息。不过，随着不断练习，一切都会开始感觉自然得多。现在，请花点时间坐下来，回想一下你所学到的一切。

你了解了元数据，以及它如何通过描述数据内容来保持数据的组织性。你看到了内部和外部数据如何被访问，以及数据分析师如何使用它们来找到有说服力的见解以解决业务问题。你可以对数据进行排序和筛选，以精确定位所需信息。最后，你刚刚学习了查询，甚至练习编写了一些。😊

接下来，你将有一些阅读材料，然后是一个每周挑战来测试你的知识。这将帮助你确认是否理解了我们在这些视频中所讲的内容。一如既往，如果你对某个问题不确定，我强烈建议你复习视频和阅读材料以找到答案。你现在是一名数据侦探了，请运用这些技能。

继续努力，我们每周挑战后再见。

032：谷歌数据分析师第三课《为数据探索做准备》data-preparation 📊

课程概述

在本节课中，我们将学习如何为数据处理和分析做好准备。我们将重点探讨如何组织和保护数据，以确保分析过程的效率和安全性。

建立对数据的信心 🔒

欢迎回来。到目前为止，我们主要关注如何为数据处理和分析准备数据。在接下来的视频中，我们将探讨该过程的另一个重要部分：组织和保护数据。

保持数据井井有条有几个重要原因。它使数据更容易查找和使用，有助于避免在分析过程中出错，并有助于保护数据。

接下来，我们将介绍个人和专业用途的数据组织基础，以及文件命名规范。然后，我们将了解电子表格的一些安全功能。

学习目标与成果 🎯

在接下来的几个视频结束时，你将能够完成所有这些任务，并且能够向利益相关者解释这些步骤，让他们对你的数据实践感到安全可靠。

当你准备好开始时，请继续观看下一个视频。在那里，我们将从为个人用途组织数据开始。

033：谷歌数据分析师第三课《为数据探索做准备》data-preparation 📁

概述

在本节课中，我们将学习如何为数据探索做准备，核心是掌握数据组织的最佳实践。我们将了解如何通过命名、文件夹管理和归档等方法，确保数据易于查找和使用，并探讨几种常见的数据组织方式。

保持数据条理：最佳实践 🗂️

无论你是为自己整理个人数据，还是为工作整理项目数据，遵循特定的流程都能确保数据易于查找和使用。本节视频将介绍一些最佳的组织实践，并探讨项目数据的不同组织方式。

以下是整理数据时可以使用的多项最佳实践，包括命名规范、文件夹管理和旧文件归档。

命名规范

我们之前讨论过文件命名，也称为命名规范。这是一套一致的指导原则，用于在文件名中描述文件的内容、日期或版本。本质上，这意味着你需要为文件使用逻辑性强且描述性好的名称，以便于查找和使用。

文件夹管理

说到轻松查找，将文件组织到文件夹中有助于将项目相关的文件集中存放在一个地方。这被称为文件夹管理。例如，所有与你2025年假期计划相关的文件可以放在“Vacation_2025”文件夹中。然后，你可以进一步创建子文件夹，如“行程”或“照片”，以便轻松访问其他内容。

文件归档

将旧项目移动到单独的位置以创建归档，有助于减少混乱。当我为文件起有意义且易于搜索的名称，并将它们组织到文件夹中时，查找和使用文件就变得容易得多，这使我的所有数据都更易于访问和利用。

工作数据组织的额外考量 ⚙️

除了上述三项最佳实践，在为工作整理数据时，还需要考虑另外两点。

首先，工作中使用的项目数据可能被多人访问和使用，因此，使你的命名和存储实践与团队保持一致非常重要，以避免混淆。你的团队可能还会制定元数据实践，例如创建一个文件来概述项目命名规范，以便于参考。我们稍后将更详细地讨论工作文件的命名规范。

其次，你需要考虑复制数据并将其存储在不同位置的频率。最重要的是，因为如果数据存储在多个不同的数据库或电子表格中，它们可能会相互矛盾，并在以后导致错误。此外，在多个位置存储数据会占用大量空间。关系型数据库可以帮助你避免数据重复，并更有效地存储数据。

你可以根据项目需求，运用这些实践以不同方式组织数据。接下来，让我们看一些数据组织的例子。

数据组织方式示例 📂

这里有一些示例项目文件夹，每个都以略微不同的方式组织。让我们打开它们看看具体是什么样子。我们将从“高层财务”文件夹开始。

“财务”文件夹是按类别组织的。其中有“预算”、“发票”和“工资单”等子文件夹，代表不同的类别。让我们点击“发票”文件夹看看里面有什么。

在“发票”文件夹中，可以看到另一组按年份（2014、2015）标记的子文件夹。是的，看起来这些是按时间顺序排列的。有时，文件的组织方式可以告诉我们这些文件内的数据是如何组织的。

让我们打开一个文件来验证一下。在2014年的子文件夹中，有一个包含6月份发票的文件。打开后，我们可以看到它们也是按日期组织的，就像文件夹一样。

根据你的需求，有多种组织数据的方式。“财务”文件夹中子文件夹的分类组织让我可以直接找到发票，而“发票”子文件夹的时间顺序组织则帮助我们找到特定日期的财务数据。

还有其他组织数据的方式，例如按重要性顺序，甚至按地理位置。例如，一家公司可能使用分层组织，使员工数据反映其员工组织的结构；或者一家处理地理数据的公司可能选择按位置组织。在项目早期花时间考虑对你和你的团队来说最佳的组织方法并坚持下去，是一个好主意。

总结与比喻 🧹

我们可以这样理解：未经组织的数据就像一个杂乱的房间。它令人不知所措，难以找到任何东西，并且拖延清理的时间越长，情况就越糟。但是，通过确保在早期就知道将文件放在哪里，你可以保持工作数据有条理、易于使用且无错误。

现在你已经看到了为个人和工作用途保持数据条理的重要性，我们将在下一个视频中更仔细地研究文件命名规范，以及它们如何延续到你的数据库中。下个视频见。

034：34_04_01_电子表格中的安全功能.zh_en 📊🔒

概述

在本节课中，我们将要学习如何保护电子表格中的数据。数据整理完毕后，确保其安全至关重要。电子表格软件内置了多种安全功能，可以帮助我们实现这一目标。

什么是数据安全？

上一节我们介绍了如何整理数据，本节中我们来看看如何保护数据。你可能会认为安全功能仅用于防止他人访问数据，但这只是其中一种。安全功能的设计可以阻止未经授权的用户查看特定文件，或者锁定工作表以防止你意外破坏公式。这被称为数据安全。

数据安全意味着通过采取安全措施，保护数据免受未经授权的访问或损坏。

常见电子表格程序的安全功能

无论你使用哪种电子表格程序，它们都内置了相似的安全措施。作为数据分析师，你会经常遇到 Google Sheets 和 Excel。接下来，我们谈谈它们的共同点。

以下是它们共有的核心安全功能：

工作表与单元格保护：两个程序都允许你保护整个工作表或其中的特定部分（如表中的单个单元格）不被编辑。这样，在与他人协作时，你可以轻松锁定公式，防止它们被意外破坏。
访问控制：谈到协作，Excel 和 Google Sheets 都具备访问控制功能，例如密码保护和用户权限。这让你能更好地控制谁可以对你的电子表格执行何种操作。

不同程序间的细微差别

由于这些程序位于不同的平台（本地与云端），其功能实现略有不同。

对于 Excel 电子表格，你可以在通过电子邮件发送给其他用户之前，使用密码对文件和工作表进行加密。
在 Google Sheets 中，这些设置位于“共享”菜单下，允许你控制谁可以在线查看或编辑表格。

其他实用安全措施

除了上述功能，还有一些其他实用的操作可以增强数据安全性。

以下是你可以采取的措施：

复制工作表：Google Sheets 可以复制，这样用户可以在不更改原始数据的情况下使用数据。
隐藏与取消隐藏标签页：在 Sheets 和 Excel 中，标签页可以被隐藏和取消隐藏，这允许你控制正在查看哪些数据。但请记住，隐藏的标签页也可能被他人取消隐藏，因此请确保你能够接受这些标签页仍然可以被访问。

作为数据分析师，数据安全将是优先事项。但无论你使用哪种程序创建电子表格，都有安全功能来帮助你确保工作的安全。

还有一些其他基本的、可以整体上使数据更安全的最佳实践，我们将在后续的阅读材料中介绍。

模块总结与后续安排

恭喜你完成本模块的学习！在这些视频中，我们涵盖了以下内容：

为个人和工作用途组织数据的策略。
如何制定实用的文件命名规范。
可以在电子表格中利用的一些安全措施。

在进入数据分析生命周期的下一步之前，确保你的数据已准备就绪非常重要，这包括组织数据并确保其安全。

和往常一样，本视频之后是你本周的挑战。我相信你能做到！

在每周挑战之后，有一些关于连接在线数据社区的选修材料。当你开始构建数据分析职业生涯时，与他人建立联系、了解该领域的新趋势并分享自己的工作将非常有价值。我认为你会从那些视频中收获很多，它们将帮助你建立专业的在线形象，并找到与你所在领域人士交流的方式。这在网络日益重要、远程工作机会成为常态的今天至关重要。

但如果你对自己的在线形象已经相当有信心，可以直接进入课程挑战。

祝你在本周的挑战中好运，我们很快再见。

035：导师是关键

在本节课中，我们将学习导师在数据分析师职业发展中的重要性。导师能提供指导、支持与宝贵经验，帮助你应对职业道路上的各种挑战。

我叫Rachel，是Verily公司的业务系统与分析主管。在我的职业生涯中，我很幸运地遇到了一些非常出色的导师。我必须强调，当你在职业生涯中摸索前行时，拥有一位支持者至关重要。

对我而言，几位优秀的导师引导我做出了一些非常艰难的职业决定，这可以追溯到很早以前。我的第一位导师是学校的一位教授。这位教授给了我极好的建议，告诉我如何追随梦想，以及如何深入自己感兴趣的领域。

我认为在工作中拥有一位优秀的导师同样非常重要。我的导师帮助我理解组织的方方面面，有时甚至是其中的“政治”因素，并协助我决定下一步该做什么。因此，拥有一位置身事外的导师固然很好，但有时拥有一位了解你所在环境的导师也非常有益。

我会定期与我的导师联系，只是为了保持沟通、了解近况以维持关系。但当我纠结于某个难题或面临关键抉择时，我会特意安排时间与导师交流。例如，我曾与导师深入探讨，是应该专注于我职业生涯中的财务方向，还是应该深入IT和系统方向。这些对话帮助我决定了未来的重点、应该学习哪些课程、继续接受哪些教育，以及在即将到来的项目中应侧重哪些方面。与某人讨论这些，确实帮助我理清了混乱的思绪，并明确了下一步的方向。

我认为寻找导师时，最重要的是找到一位与你合得来并且你信任的人。你将向这个人寻求职业生涯中一些可能最艰难的选择的指导、帮助和支持。我最成功的导师关系，是与那些我在个人或专业上关系密切、我信任、并且我愿意与之分享深层想法的人建立的。我可以放心地分享许多关于我的想法、经历和目标的、可能敏感的细节，以便他们能帮助我理清思路并决定该怎么做。

现在，我很高兴能将这份善意传递下去，分享我从导师和自身职业经历中学到的智慧，帮助他人应对类似的决策和处境。希望他们能从我的经验和错误中学习。能够回馈他人，正是担任导师最令人兴奋的地方。