当前位置：首页 > news >正文

未来已来：AI驱动的数据湖仓

news 2026/7/4 17:55:10

各行各业的数据团队都在重新思考如何构建和运行系统，使其不再仅仅存储信息，而是将数据转化为真正的智能洞察。同时，这些系统还需要具备互操作性。AI模型、特征管道（feature pipelines）、商业智能（BI）报告以及批处理作业通常跨越多个团队和引擎。如何在不复制或重构的情况下实现跨边界数据共享，已成为首要需求。

从前，企业依赖双层架构，专为商业智能和报告优化的数据仓库，以及面向大规模 AI 和机器学习（ML）设计的数据湖。这种分离带来了诸多成本，包括复杂的数据迁移、专业化的工程设计以及系统间重复储存数据，且这些数据很少保持同步。

Cloudera的开放式数据湖仓一体架构旨在应对这一挑战，将分析（BI、临时查询）和 AI（预测性和生成式 AI）工作负载整合在单一受控的数据基础架构之上。借助Apache Iceberg 等开放表格式，这种统一的数据架构能够帮助企业实现“将计算能力引入数据”（而非反之），并为在更贴近数据的位置运行AI工作负载奠定了基础。智能湖仓上的AI工作负载可直接在受控、版本化的高质量数据上运行。

作为一家领先的数据和 AI 平台公司，Cloudera致力于将 AI 技术应用于复杂环境中的企业数据。Cloudera 凭借成熟的开源基础架构，提供融合公有云、数据中心和边缘计算的一致云体验。

开放基础架构对运行AI工作负载的重要性

过去十年间，企业逐渐认识到仅具备性能和可扩展性远远不够，灵活性和互操作性才是决定长期成功的关键。尤其对于 AI 负载而言，其运行依赖于能够调用不同的数据源、框架和工具的能力，而不受专有格式或系统的限制。

在此背景下，如Apache Iceberg等开放表格式重塑了数据平台的架构。Iceberg将表的逻辑定义与其物理存储布局分离，允许多个引擎和框架在完全事务保证（Transactional Guarantees）的前提下读写相同的数据。这种开放性支持基础设施持续演进，并采用新的计算引擎，而无需重写现有流程。

运行生产级流水线需要一个统一平台，能够连接 AI 生命周期各个阶段的数据、模型和治理机制。其核心是数据与特征工程管道（feature engineering pipelines），它们持续地将原始的结构化、半结构化和非结构化数据转换为可用于 AI的特征，并保持模型训练和评估的数据血缘和可复现性。

除了传统的机器学习，生成式 AI 还带来了新的运营需求。团队需要基础设施和数据访问权限，以实现检索增强生成（retrieval-augmented generation, RAG）、在私有数据上微调大语言模型（large language models, LLMs），并构建结合模型、提示词和模型上下文协议（model context protocols, MCPs）（API）的智能体工作流，从而完成特定领域的任务。这些工作负载同时依赖表格和非结构化数据，包括文本、文档、图像和嵌入向量（embeddings），所有数据都由单一的数据和元数据平面管理。此外，可扩展的推理层对于安全高效地部署和运行这些模型至关重要。

随着 AI 工作负载日益趋向多模态和智能体化，访问目录与元数据也变得更加重要。AI 流水线、检索系统和自主智能体都依赖元数据来发现数据集、复现训练状态和维护数据血缘。开放式目录为这些系统提供了一种通用方式来查询、注册和追踪数据集，无论数据集在何处或以何种方式处理。

Cloudera的开放基础架构能够帮助企业支持各种分析、预测和生成式 AI 工作负载。

Cloudera 的统一数据和AI平台

Cloudera的开放式数据湖仓一体架构基于 Apache Iceberg 和 REST Catalog等开放基础架构，将数据工程、分析和 AI 整合到同一受控架构中。该平台的设计原则是工作负载（无论是分析还是 AI）都应在数据所在位置运行。通过消除数据迁移或复制的繁琐步骤，团队可以构建涵盖数据摄取、转换、分析及模型操作的生命周期，并具备完整的数据血缘与治理能力。

图 1：Cloudera 基于开放基础架构（Apache Iceberg）构建的数据和 AI 平台

接下来，我们将回顾Cloudera平台（图 1）的各个组件如何支持团队构建机器学习流水线和生成式 AI 应用，同时覆盖从摄取到推理的数据与 AI 生命周期的各个阶段，同时作为统一的互操作平台运行。该平台的每个组件均基于开放标准构建，确保了跨环境的灵活性和互操作性。

存储：Apache Iceberg

Apache Iceberg是 Cloudera 湖仓架构的基础，是一种开放、版本化和事务表（transactional table）格式。Iceberg 支持模式演化、数据版本回溯和原子操作，从而保持分析和 AI 工作负载在同一受控数据上进行一致操作。Cloudera 提供受控且版本化的基础架构，确保不同模型、提示或检索任务都基于一致且可追溯的数据视图。

Iceberg的原生功能，如模式演化，与 AI 数据集的演进方式高度契合。在Cloudera 智能湖仓中，特征存储、训练数据集和检索语料库都可以共享相同的Iceberg表，通过快照技术冻结用于训练的一致视图，同时持续接收新数据用于推理。这种设计削弱了分析表与 AI 专用存储之间的隔阂。

数据摄取：Cloudera Data in Motion

Cloudera DataFlow 基于Apache NiFi 构建，为数据持续迁移到智能湖仓奠定了基础。它能够从各类企业数据源，包括数据库、API、物联网设备和事件日志进行低延迟数据摄取，从而支持批处理和流式工作负载。NiFi 原生集成Apache Iceberg的最新创新，可实现数据直接写入开放式数据湖仓一体架构，无需中间暂存。NiFi 与Iceberg 之间的紧密耦合简化了数据管道复杂性，并使数据摄取更贴近开放表格式本身。

在实时应用场景中，NiFi、Apache Kafka 和 Apache Flink 共同构成了事件驱动的数据摄取架构，NiFi 负责数据编排和路由，Kafka 提供持久流式传输，Flink 则在数据持久化到Iceberg之前进行实时数据增强。该设计确保数据在下游消费者中保持新鲜度与可控性。这种持续流动的多模态数据流，正是驱动智能湖仓上 AI 工作负载的核心动力。通过在 Iceberg 表中以一致的治理方式持续提供实时数据，企业可以为生成式 AI 系统提供及时、特定领域的信息，从而使RAG管道和智能体工作流更加精确、可靠和稳定。

目录：Cloudera Iceberg REST Catalog

Cloudera Iceberg REST Catalog基于开放的REST 规范，提供了一个集中且可互操作的元数据服务，允许支持开放规范的第三方引擎，如Snowflake、Redshift和Databricks对Iceberg表进行零拷贝访问。这对企业而言至关重要，因为他们不再局限于单一平台提供的单一计算引擎，从而可以灵活地根据业务需求选择更适合的计算资源。用户可以使用他们偏好的工具，同时Cloudera提供的安全性和治理策略将贯穿各类数据，确保跨环境的一致性。

图 2：Cloudera 的 Iceberg REST Catalog 实现了与第三方引擎的互操作性

该目录层对于特征工程管道、智能体工作流和检索系统动态至关重要，它们能够动态地查找和访问受控数据集。AI 智能体可以使用REST Catalog查询 Iceberg表，就像查询企业数据的知识图谱一样。它们可以发现可用表，解释其模式，并分析表元数据（例如分区、快照和血缘关系），从而确定要使用的数据集。

安全和治理：Cloudera SDX

Cloudera Shared Data Experience（SDX）是一个统一的安全与治理框架，涵盖从数据摄取到推理的各项服务。SDX为数据血缘、审计、访问控制和策略执行提供一个统一的层级，确保工作负载无论运行在何处，都能继承相同的安全模型。它与企业身份系统（LDAP、SSO、OAuth）集成，并支持对结构化和非结构化数据进行细粒度的、基于角色和属性的访问控制。

通过将SDX与开放式数据湖仓一体架构基础结合，Cloudera确保数据、模型和AI智能体在同一受控边界内运行，从而为分析和生成式 AI 工作负载提供透明度、可复现性和信任度。

Cloudera 数据和AI服务

统一的服务层整合了团队所需的各项功能，用于转换、分析和部署 AI，所有操作均基于相同的受控数据。

数据工程：Cloudera Data Engineering基于开源的 Apache Spark 和 Apache Airflow构建，提供无服务器服务，能够直接在 Iceberg 表上构建、编排和扩展数据管道，从而为混合环境中的分析和 AI 工作负责提供可靠、可复现的ETL和特征管道。

AI 服务：Cloudera AI 服务层实现了AI的全生命周期运营，从模型训练和微调到安全部署，所有环节都基于Iceberg 平台、在同一受控数据架构上原生运行。该服务将模型开发、注册和推理整合到一个统一的工作流程中，实现了数据工程与 AI 运维的无缝衔接。

图 3：Cloudera AI 提供的 AI 工作台和推理服务

Cloudera AI Workbench

Cloudera AI Workbench 是一个协作环境，供数据科学家、分析师和工程师开发、微调和测试模型，其整合了笔记本、低代码应用构建器（AMPs）以及覆盖AI开发各阶段的专用工作室。为了加速AI开发和部署，Cloudera AI Workbench 支持四个AI 工作室，从而弥合业务与技术团队之间的鸿沟，促进 AI 项目的协作。

Synthetic Data Studio在真实数据有限或受限时生成合成数据集，用于测试和模型训练。
Fine-Tuning Studio利用企业级数据集调整开放的基础模型，以提高相关性和准确性。
RAG Studio构建RAG管道，将大型语言模型（如 OpenAI、Anthropic、Amazon Bedrock）与相关私有数据连接，以生成基于实际情况且具有上下文意义的输出。
Agent Studio支持创建多步骤的智能体工作流，利用模型、MCP、API和内部数据源，实现特定领域任务自动化。

这些功能都在基于 Iceberg 基础架构的开放式数据湖仓一体架构上运行，支持团队能够以受控、零复制的方式访问特定任务所需的数据。

Cloudera MCP Server

Cloudera 还通过一系列新兴的 MCP 服务扩大其AI平台的开放性，其中包括开源的 Cloudera AI Workbench MCP Server。该服务专为 AI 系统集成而设计，支持在AI Workbench中启用智能体和工具调用功能。它为大语言模型提供了与 Cloudera AI Workbench 功能和组件安全交互的框架，将模型、数据和应用程序引入自动化的企业工作流程中。在这种架构中，智能体能够在可信且受监管的 Cloudera 环境中推理、执行和自动化任务，同时满足受监管行业所需的安全性、可控性和可审计性。

Cloudera AI Inference Service

Cloudera AI Inference Service 通过自动扩展、高可用性和端到端可观测性，将模型带入生产环境。该服务支持传统的机器学习模型和大语言模型，以低延迟方式提供预测和响应。模型可部署为具备企业级安全性的REST或gRPC端点，确保应用程序和智能体访问的可靠性和一致性。

Cloudera AI Registry 集成在推理层中，提供集中化的模型生命周期管理，配备兼容MLflow的API，用于跟踪、版本控制、工件存储和追溯。用户可以从多种开放和企业语言模型中选择，如LlaMa、Cohere、Gemma、Mistral。

推理层还包括内置的监控和可观察性，支持团队跟踪延迟、吞吐量和模型偏差，同时通过SDX治理保持完整的数据血缘和合规性。这确保模型预测具备可解释性与可追溯性，是企业级 AI 的关键需求。

未来由 AI 驱动，AI 由数据驱动

AI 的成功不仅取决于模型或智能体的能力，也同样取决于数据架构。智能湖仓提供了这样的基础，将分析、运营与 AI 工作负载统一到单一受控的数据平面之上。基于开放标准构建，能够确保数据、元数据和模型可以在不同的工具、云平台和团队之间无缝互操作。IDC预测，到2028年，60%的中国企业数据平台将搭建HTAP架构来统一事务处理和分析工作负载，从而为AI Agent提供支持，实现实时数据访问和持续智能。

Cloudera AI Workbench、AI Inference Service和集成的AI Registry共同构成基于开放式湖仓一体架构的数据到 AI 全生命周期。该技术栈直接构建在受控的 Iceberg 表和开放元数据访问之上，确保每个模型、提示和智能体都基于可信、版本化的数据运行。

企业 AI 的未来将不再由专有技术栈定义，而是由开放的基础架构决定，这些基础架构通过共享标准和透明的互操作性统一数据、治理和智能。

要了解更多关于如何使用 Cloudera 安全地大规模准备、集成和分析数据的信息，请查看我们的产品演示或注册免费 5 天试用版。

查看全文

http://www.jsqmd.com/news/805707/