当前位置: 首页 > news >正文

未来已来:AI驱动的数据湖仓

各行各业的数据团队都在重新思考如何构建和运行系统,使其不再仅仅存储信息,而是将数据转化为真正的智能洞察。同时,这些系统还需要具备互操作性。AI模型、特征管道(feature pipelines)、商业智能(BI)报告以及批处理作业通常跨越多个团队和引擎。如何在不复制或重构的情况下实现跨边界数据共享,已成为首要需求。

从前,企业依赖双层架构,专为商业智能和报告优化的数据仓库,以及面向大规模 AI 和机器学习(ML)设计的数据湖。这种分离带来了诸多成本,包括复杂的数据迁移、专业化的工程设计以及系统间重复储存数据,且这些数据很少保持同步。

Cloudera的开放式数据湖仓一体架构旨在应对这一挑战,将分析(BI、临时查询)和 AI(预测性和生成式 AI)工作负载整合在单一受控的数据基础架构之上。借助Apache Iceberg 等开放表格式,这种统一的数据架构能够帮助企业实现“将计算能力引入数据”(而非反之),并为在更贴近数据的位置运行AI工作负载奠定了基础。智能湖仓上的AI工作负载可直接在受控、版本化的高质量数据上运行。

作为一家领先的数据和 AI 平台公司,Cloudera致力于将 AI 技术应用于复杂环境中的企业数据。Cloudera 凭借成熟的开源基础架构,提供融合公有云、数据中心和边缘计算的一致云体验。

开放基础架构对运行AI工作负载的重要性

过去十年间,企业逐渐认识到仅具备性能和可扩展性远远不够,灵活性和互操作性才是决定长期成功的关键。尤其对于 AI 负载而言,其运行依赖于能够调用不同的数据源、框架和工具的能力,而不受专有格式或系统的限制。

在此背景下,如Apache Iceberg等开放表格式重塑了数据平台的架构。Iceberg将表的逻辑定义与其物理存储布局分离,允许多个引擎和框架在完全事务保证(Transactional Guarantees)的前提下读写相同的数据。这种开放性支持基础设施持续演进,并采用新的计算引擎,而无需重写现有流程。

运行生产级流水线需要一个统一平台,能够连接 AI 生命周期各个阶段的数据、模型和治理机制。其核心是数据与特征工程管道(feature engineering pipelines),它们持续地将原始的结构化、半结构化和非结构化数据转换为可用于 AI的特征,并保持模型训练和评估的数据血缘和可复现性。

除了传统的机器学习,生成式 AI 还带来了新的运营需求。团队需要基础设施和数据访问权限,以实现检索增强生成(retrieval-augmented generation, RAG)、在私有数据上微调大语言模型(large language models, LLMs),并构建结合模型、提示词和模型上下文协议(model context protocols, MCPs)(API)的智能体工作流,从而完成特定领域的任务。这些工作负载同时依赖表格和非结构化数据,包括文本、文档、图像和嵌入向量(embeddings),所有数据都由单一的数据和元数据平面管理。此外,可扩展的推理层对于安全高效地部署和运行这些模型至关重要。

随着 AI 工作负载日益趋向多模态和智能体化,访问目录与元数据也变得更加重要。AI 流水线、检索系统和自主智能体都依赖元数据来发现数据集、复现训练状态和维护数据血缘。开放式目录为这些系统提供了一种通用方式来查询、注册和追踪数据集,无论数据集在何处或以何种方式处理。

Cloudera的开放基础架构能够帮助企业支持各种分析、预测和生成式 AI 工作负载。

Cloudera 的统一数据和AI平台

Cloudera的开放式数据湖仓一体架构基于 Apache Iceberg 和 REST Catalog等开放基础架构,将数据工程、分析和 AI 整合到同一受控架构中。该平台的设计原则是工作负载(无论是分析还是 AI)都应在数据所在位置运行。通过消除数据迁移或复制的繁琐步骤,团队可以构建涵盖数据摄取、转换、分析及模型操作的生命周期,并具备完整的数据血缘与治理能力。

图 1:Cloudera 基于开放基础架构(Apache Iceberg)构建的数据和 AI 平台

接下来,我们将回顾Cloudera平台(图 1)的各个组件如何支持团队构建机器学习流水线和生成式 AI 应用,同时覆盖从摄取到推理的数据与 AI 生命周期的各个阶段,同时作为统一的互操作平台运行。该平台的每个组件均基于开放标准构建,确保了跨环境的灵活性和互操作性。

存储:Apache Iceberg

Apache Iceberg是 Cloudera 湖仓架构的基础,是一种开放、版本化和事务表(transactional table)格式。Iceberg 支持模式演化、数据版本回溯和原子操作,从而保持分析和 AI 工作负载在同一受控数据上进行一致操作。Cloudera 提供受控且版本化的基础架构,确保不同模型、提示或检索任务都基于一致且可追溯的数据视图。

Iceberg的原生功能,如模式演化,与 AI 数据集的演进方式高度契合。在Cloudera 智能湖仓中,特征存储、训练数据集和检索语料库都可以共享相同的Iceberg表,通过快照技术冻结用于训练的一致视图,同时持续接收新数据用于推理。这种设计削弱了分析表与 AI 专用存储之间的隔阂。

数据摄取:Cloudera Data in Motion

Cloudera DataFlow 基于Apache NiFi 构建,为数据持续迁移到智能湖仓奠定了基础。它能够从各类企业数据源,包括数据库、API、物联网设备和事件日志进行低延迟数据摄取,从而支持批处理和流式工作负载。NiFi 原生集成Apache Iceberg的最新创新,可实现数据直接写入开放式数据湖仓一体架构,无需中间暂存。NiFi 与Iceberg 之间的紧密耦合简化了数据管道复杂性,并使数据摄取更贴近开放表格式本身。

在实时应用场景中,NiFi、Apache Kafka 和 Apache Flink 共同构成了事件驱动的数据摄取架构,NiFi 负责数据编排和路由,Kafka 提供持久流式传输,Flink 则在数据持久化到Iceberg之前进行实时数据增强。该设计确保数据在下游消费者中保持新鲜度与可控性。这种持续流动的多模态数据流,正是驱动智能湖仓上 AI 工作负载的核心动力。通过在 Iceberg 表中以一致的治理方式持续提供实时数据,企业可以为 生成式 AI 系统提供及时、特定领域的信息,从而使RAG管道和智能体工作流更加精确、可靠和稳定。

目录:Cloudera Iceberg REST Catalog

Cloudera Iceberg REST Catalog基于开放的REST 规范,提供了一个集中且可互操作的元数据服务,允许支持开放规范的第三方引擎,如Snowflake、Redshift和Databricks对Iceberg表进行零拷贝访问。这对企业而言至关重要,因为他们不再局限于单一平台提供的单一计算引擎,从而可以灵活地根据业务需求选择更适合的计算资源。用户可以使用他们偏好的工具,同时Cloudera提供的安全性和治理策略将贯穿各类数据,确保跨环境的一致性。


图 2:Cloudera 的 Iceberg REST Catalog 实现了与第三方引擎的互操作性

该目录层对于特征工程管道、智能体工作流和检索系统动态至关重要,它们能够动态地查找和访问受控数据集。AI 智能体可以使用REST Catalog查询 Iceberg表,就像查询企业数据的知识图谱一样。它们可以发现可用表,解释其模式,并分析表元数据(例如分区、快照和血缘关系),从而确定要使用的数据集。

安全和治理:Cloudera SDX

Cloudera Shared Data Experience(SDX)是一个统一的安全与治理框架,涵盖从数据摄取到推理的各项服务。SDX为数据血缘、审计、访问控制和策略执行提供一个统一的层级,确保工作负载无论运行在何处,都能继承相同的安全模型。它与企业身份系统(LDAP、SSO、OAuth)集成,并支持对结构化和非结构化数据进行细粒度的、基于角色和属性的访问控制。

通过将SDX与开放式数据湖仓一体架构基础结合,Cloudera确保数据、模型和AI智能体在同一受控边界内运行,从而为分析和生成式 AI 工作负载提供透明度、可复现性和信任度。

Cloudera 数据和AI服务

统一的服务层整合了团队所需的各项功能,用于转换、分析和部署 AI,所有操作均基于相同的受控数据。

数据工程:Cloudera Data Engineering基于开源的 Apache Spark 和 Apache Airflow构建,提供无服务器服务,能够直接在 Iceberg 表上构建、编排和扩展数据管道,从而为混合环境中的分析和 AI 工作负责提供可靠、可复现的ETL和特征管道。

AI 服务:Cloudera AI 服务层实现了AI的全生命周期运营,从模型训练和微调到安全部署,所有环节都基于Iceberg 平台、在同一受控数据架构上原生运行。该服务将模型开发、注册和推理整合到一个统一的工作流程中,实现了数据工程与 AI 运维的无缝衔接。

图 3:Cloudera AI 提供的 AI 工作台和推理服务

Cloudera AI Workbench

Cloudera AI Workbench 是一个协作环境,供数据科学家、分析师和工程师开发、微调和测试模型,其整合了笔记本、低代码应用构建器(AMPs)以及覆盖AI开发各阶段的专用工作室。为了加速AI开发和部署,Cloudera AI Workbench 支持 四个AI 工作室 ,从而弥合业务与技术团队之间的鸿沟,促进 AI 项目的协作。

  • Synthetic Data Studio在真实数据有限或受限时生成合成数据集,用于测试和模型训练。
  • Fine-Tuning Studio利用企业级数据集调整开放的基础模型,以提高相关性和准确性。
  • RAG Studio构建RAG管道,将大型语言模型(如 OpenAI、Anthropic、Amazon Bedrock)与相关私有数据连接,以生成基于实际情况且具有上下文意义的输出。
  • Agent Studio支持创建多步骤的智能体工作流,利用模型、MCP、API和内部数据源,实现特定领域任务自动化。

这些功能都在基于 Iceberg 基础架构的开放式数据湖仓一体架构上运行,支持团队能够以受控、零复制的方式访问特定任务所需的数据。

Cloudera MCP Server

Cloudera 还通过一系列新兴的 MCP 服务扩大其AI平台的开放性,其中包括开源的 Cloudera AI Workbench MCP Server。该服务专为 AI 系统集成而设计,支持在AI Workbench中启用智能体和工具调用功能。它为大语言模型提供了与 Cloudera AI Workbench 功能和组件安全交互的框架,将模型、数据和应用程序引入自动化的企业工作流程中。在这种架构中,智能体能够在可信且受监管的 Cloudera 环境中推理、执行和自动化任务,同时满足受监管行业所需的安全性、可控性和可审计性。

Cloudera AI Inference Service

Cloudera AI Inference Service 通过自动扩展、高可用性和端到端可观测性,将模型带入生产环境。该服务支持传统的机器学习模型和大语言模型,以低延迟方式提供预测和响应。模型可部署为具备企业级安全性的REST或gRPC端点,确保应用程序和智能体访问的可靠性和一致性。

Cloudera AI Registry 集成在推理层中,提供集中化的模型生命周期管理,配备兼容MLflow的API,用于跟踪、版本控制、工件存储和追溯。用户可以从多种开放和企业语言模型中选择,如LlaMa、Cohere、Gemma、Mistral。

推理层还包括内置的监控和可观察性,支持团队跟踪延迟、吞吐量和模型偏差,同时通过SDX治理保持完整的数据血缘和合规性。这确保模型预测具备可解释性与可追溯性,是企业级 AI 的关键需求。

未来由 AI 驱动,AI 由数据驱动

AI 的成功不仅取决于模型或智能体的能力,也同样取决于数据架构。智能湖仓提供了这样的基础,将分析、运营与 AI 工作负载统一到单一受控的数据平面之上。基于开放标准构建,能够确保数据、元数据和模型可以在不同的工具、云平台和团队之间无缝互操作。IDC预测,到2028年,60%的中国企业数据平台将搭建HTAP架构来统一事务处理和分析工作负载,从而为AI Agent提供支持,实现实时数据访问和持续智能。

Cloudera AI Workbench、AI Inference Service和集成的AI Registry共同构成基于开放式湖仓一体架构的数据到 AI 全生命周期。该技术栈直接构建在受控的 Iceberg 表和开放元数据访问之上,确保每个模型、提示和智能体都基于可信、版本化的数据运行。

企业 AI 的未来将不再由专有技术栈定义,而是由开放的基础架构决定,这些基础架构通过共享标准和透明的互操作性统一数据、治理和智能。

要了解更多关于如何使用 Cloudera 安全地大规模准备、集成和分析数据的信息,请查看我们的产品演示或注册免费 5 天试用版。

http://www.jsqmd.com/news/805707/

相关文章:

  • 基于OpenTelemetry的Gemini CLI本地数据驾驶舱部署与实战指南
  • 2026现阶段西安防水堵漏公司深度**:远大加固为何成为行业优选? - 2026年企业推荐榜
  • 基于MCP协议的AssistAI:深度集成Eclipse的AI编程助手实战指南
  • 长沙定制开发本地生活APP打造城市便民消费场景
  • 2篇3章3节:Trae 的高效小说创作与文件管理实操
  • “找档难、找档慢”困扰工作?档案宝智能检索功能,让档案查询秒响应
  • DeepSeek总结的pg_clickhouse v0.3.0的新特性
  • 基于 ESP32-S3 的四博 AI 墨水屏智能音箱方案:CozyLife、Find My、Google 防丢与 MCP 工具控制
  • AMD Ryzen调试神器:SMU Debug Tool终极指南,轻松掌控CPU性能
  • 2026年长沙名表珠宝抵押机构TOP推荐:长沙高档礼品回收、长沙K金回收、长沙包包鉴定、长沙名包回收、长沙名包抵押选择指南 - 优质品牌商家
  • 2026年苏州兼职会计代账选型:苏州兼职会计代账、苏州外贸公司代理记账、苏州注册公司地址挂靠、苏州注册园区地址挂靠选择指南 - 优质品牌商家
  • 黎阳之光:视频孪生硬核赋能,共启数字孪生水利监测新征程
  • ETS2LA:为《欧洲卡车模拟2》带来终极智能驾驶体验的5大核心功能
  • 终极指南:如何为Photoshop安装AVIF插件实现高效图像处理
  • Godot开发者必备:awesome-godot资源库高效使用指南
  • 开源项目可持续融资:Polar自托管部署与GitHub集成实战
  • 基于RAG与LLM构建多文档智能问答系统:从原理到实践
  • 白嫖新网免费云主机,挂QQ机器人亲测可用
  • 2026道岔权威厂家推荐:轨道道岔、道岔尖轨、重轨道岔、钢轨道岔、铁路道岔、9号道岔、cz2209道岔、交叉渡线道岔选择指南 - 优质品牌商家
  • C语言指针:从零掌握指针(5) 完结篇
  • 2026年当下,成都路虎专业保养如何选?深度解析“007至臻汽车”服务价值 - 2026年企业推荐榜
  • OpenClaw狂欢暗藏安全隐患,深圳机密计算科技端云一体方案筑牢AI Agent安全基座
  • 从零开始通过taotoken平台文档快速完成首个ai对话应用的原型开发
  • 什么是进销存库存表?进销存库存表包含哪些内容?
  • 【智慧社区实战】2026 门禁行业分水岭:不做“认得出”的机器,要做“懂你”的智能体
  • 功率模块电热耦合建模与快速仿真【附模型】
  • 汽车后市场品牌营销路径:以奇正沐古和康明斯为例
  • 2026冶金行业湿电除尘器性能评测报告:湿式湿电除尘器/湿式静电除尘器/烟气脱硝成套设备/烟气脱硫塔/砖厂玻璃钢脱硫塔/选择指南 - 优质品牌商家
  • 从惊叹到依赖:软件定义时代的技术信任与实用指南
  • 如何利用ComfyUI-SUPIR实现专业级图像超分辨率:完整实践指南