2024 年将塑造现代数据架构的趋势
原文:
towardsdatascience.com/trends-that-will-shape-the-modern-data-stack-in-2024-6b7de28335c2?source=collection_archive---------11-----------------------#2024-01-10
生成性 AI、数据网格、监管和可观察性。2024 年将是充满乐趣的一年!
https://medium.com/@salmabakouk?source=post_page---byline--6b7de28335c2--------------------------------https://towardsdatascience.com/?source=post_page---byline--6b7de28335c2-------------------------------- Salma Bakouk
·发表于Towards Data Science ·阅读时间 6 分钟·2024 年 1 月 10 日
–
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/22334390425c4f7a80244d510e6067a0.png
来源:www.istockphoto.com/frAndrey Suslov
2023 年将永远被铭记为生成性人工智能的年份。在这个数字时代,你几乎找不到一个拥有互联网接入的人没有听说过 ChatGPT。如果你足够长时间地见证了几次技术周期,你就知道我们正进入一个相当具有变革性的周期。根据麦肯锡的调查,自 2017 年以来,人工智能的应用已经翻了一番。尽管最近的进展无疑会加速这种应用,但我倾向于相信我们在 2024 年看到的成果仍然相对较小,因为大多数公司仍在努力弄清楚如何将数据战略与业务目标对接,同时应对日益增加的监管审查。就数据行业而言,人工智能的应用将通过让数据和数据基础设施更易于组织内的广泛用户访问,推动数据的进一步采用,从而为更多的人工智能项目提供支持。数据的安全民主化将是一个重要话题;我们将看到数据网格的更多实际应用,以及更多对安全、隐私和可观察性的投资。
本文的目的不是做出关于 AI 如何改变我们所知的数据行业的大胆声明,而是希望揭示一些我们可能会看到企业持续投资的领域,以及围绕数据与 AI 成为自我实现的预言所激发的热情。
AI 将被投入工作,并且会颠覆我们所知的现代数据栈。
当然,我们从这里开始。不可否认的是,LLMs 已经完全改变了我们对技术的思考方式,数据与分析领域也不例外。就现代数据栈而言,以下是 LLMs 将会改变游戏规则的一些领域:
数据分析:将 AI 引入分析工作流将提高自动化、效率和可访问性。
自动化:AI 可以用于自动化繁琐的任务,如数据收集、准备和清理,并减少手动错误的可能性。
效率:使用更复杂的预测模型将使公司能够预测未来趋势,提高预测的准确性。AI 算法可以用于识别和研究客户行为,从而提供高度个性化的产品推荐和更具针对性的营销活动。
可访问性:AI 将帮助 AI 的普及。自然语言处理(NLP)可以被用来使 AI 驱动的数据分析更加易于访问,允许即使是最不懂技术的用户也能以对话的方式与数据进行互动。
向量数据库的崛起:大型语言模型(LLMs)需要支持快速查询和处理大量结构化和非结构化(无模式)数据的基础设施。这正是向量和向量搜索数据库的数学概念发挥作用的地方。与传统关系型数据库的行和列不同,数据在多维空间中表示,典型的数学向量表示方式。在生成 AI 应用的背景下,向量数据库允许对向量化数据进行快速处理和查询。更多信息请见这里和这里。
“[把向量数据库想象成一个庞大的仓库,人工智能则是熟练的仓库经理。在这个仓库里,每个物品(数据)都被存储在一个箱子(向量)里,整齐地组织在多维空间的货架上,]”正如Mark Hinkle 在《The New Stack》中所述。
“机器学习管道”
在传统的数据工程中,数据管道是将数据从源头传输到目标的过程,通常是为了通过商业智能(BI)使其对企业可访问,以便进行报告和分析。机器学习管道与传统数据管道类似,都是数据传输的过程;然而,它的主要目的是支持机器学习模型的开发和部署,与数据管道不同,机器学习管道并不是一条“直线”——关于数据管道和机器学习管道的差异,请参阅这里和这里。
成功的机器学习(ML)、人工智能(AI)和数据科学项目需要强大的基础设施,以便构建、测试、训练、优化和维护模型的准确性。这个过程始于结构良好的机器学习管道。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/f2f83c95241bf658c37738e6cf8fb033.png
来源:https://www.forepaas.com/en/blog/data-pipelines-ai-pipelines-2/
隐私,请。
不可否认的是,数据使用量以及公司对数据和平台民主化的需求将在 2024 年继续大幅增长。也就是说,随着数据和人工智能的监管越来越严格,个人数据保护政策的审查将加剧。关于未来 12 个月人工智能监管的预期总结请见这里。
BYODM: 自带数据网格
自从 2019 年由其创始人 Zhamak 首次提出以来,数据网格经历了无数次辩论和相当多的怀疑。四年后,出现了几种实现方式和变体,其中公司采纳了这一概念的原则,并将其应用于自己的架构。去中心化、面向领域的设计、IaaS、数据即产品以及端到端的联合治理都是组织应当采纳的原则,以创建和促进一个无孤岛的、民主化的数据环境。然而,从传统的单体结构转向完整的数据网格并不容易,且需要进行重大的文化和组织变革。这就是为什么渐进式采纳,允许慢慢引入这一概念并证明其价值,同时对齐现有和未来的技术与商业考量,是过去几年中最有效的方式。
最终,需要记住的是,数据网格是一种架构和组织上的转变,而不是技术解决方案。我认为 BYODM 方法将在 2024 年占据主导地位。
数据与 AI 可观察性
我在这里可能有偏见。但话说回来,在每个组织都在思考大语言模型(LLM)潜力的世界里,支持数据与 AI 可观察性的观点是很难反驳的。
“没有数据战略,就没有 AI 战略。我们所追求的智能最终都体现在数据上。” ——Frank Slootman
在过去几年里,数据可观察性已成为每个现代组织数据战略的关键组成部分。如果你对这一概念不熟悉,我建议你从这里或这里开始了解。不可否认,AI 也将重塑数据可观察性领域。采用 AI 代理并使用自然语言处理(NLP)将提高平台解决方案的自动化和包容性,从而推动其采纳。我们所知的数据可观察性概念将发展,以捕捉 AI 在可观察性中的潜力,并覆盖更多的 AI 应用场景。
市场上大多数现有解决方案已经涵盖了将成为数据与 AI 可观察性的部分内容。如果你将数据科学视为数据消费的应用场景,监控进入模型训练的数据在大多数框架下已经有所涵盖。数据与 AI 可观察性的未来将发展为包括对机器学习(ML)模型行为、输出和性能的洞察。就像今天的数据管道一样,数据可观察性平台将包括关于 ML 管道的可操作性洞察,以实现有效的异常检测、根本原因分析和事件管理,并为 ML 产品部署带来可靠性和效率。
结论
2024 年是闰年,这意味着我们有 366 次机会去做更多的事情并创造数据创新。尽管 2023 年将永远被铭记为生成 AI 的元年,但 2024 年将是我们开始看到组织朝着数据与 AI 成熟度迈进的时刻。但要做好 AI,一个深思熟虑的数据战略至关重要。现代数据堆栈是一个不断发展的领域,2024 年我们将看到更多由 AI 日益普及所带来的创新。随着企业在 2024 年更多地试验 AI,治理和可观察性将成为核心,以确保顺利高效的部署。
