当前位置: 首页 > news >正文

完整教程:Alluxio正式登陆Oracle云市场,为AI工作负载提供TB级吞吐量与亚毫秒级延迟

完整教程:Alluxio正式登陆Oracle云市场,为AI工作负载提供TB级吞吐量与亚毫秒级延迟

企业级数据访问加速平台领导者 Alluxio 宣布上线 Oracle 云市场(Oracle Cloud Marketplace),正式成为 OCI(Oracle Cloud Infrastructure )全球合作伙伴之一。这一里程碑式的合作标志着双方将为共同客户给予更便捷的AI基础设施解决方案,通过创新的数据加速技能彻底改变人工智能与机器学习工作负载的数据访问范式。

请添加图片描述

Oracle与Alluxio签署AI能力共建合作协议
甲骨文公司副总裁中国区董事总经理吴承扬与Alluxio中国区总经理王晓丹代表双方签署

在现代内容驱动型环境中,高性能计算集群(尤其是在利用 GPU 时)面临的挑战主要来自数据访问延迟和 I/O 吞吐量不足等问题。这种效率瓶颈不仅会导致宝贵的计算资源闲置,还并显著增加企业运营成本。Alluxio 与 Oracle 此次牵手,通过构建基于分层的数据架构解决方案突破了这些瓶颈,从而提高了 GPU 利用率,也提升了云基础设施投资回报率。

在最新的基准测试中,Alluxio数据访问加速层与 OCI 高性能裸金属基础设施的强强联合被展露无遗:在 350 个加速器上实现了低于 1 毫秒的平均延迟、近线性可扩展性,以及超过 90% 的 GPU 利用率。

基准测试链接:
https://blogs.oracle.com/cloud-infrastructure/alluxio-on-oci-submillisecond-latency-for-ai

Alluxio 销售总监程亮表示:“大家非常高兴能够通过 Oracle 云市场将 Alluxio 的高性能材料加速能力带给全球的 OCI 用户。AI 时代的竞争本质上是内容效率与计算效率的竞争。Alluxio 与 OCI 的深度结合,将援助客户彻底释放其数据潜力,让 GPU 每一秒都创造足量价值。”

“我们听到客户最迫切的需求是:如何让昂贵的 GPU 资源全力运转,而不是等待内容。”甲骨文公司中国区云工程部门总经理窦杰表示,“Alluxio 在 OCI 上的落地,正是对这一痛点的直接回应。通过将数据智能地缓存在计算侧,我们已帮助客户将训练效率提升了一倍以上。这项合作印证了我们的承诺:提供不只是基础设施,更是真正解放生产力的解决方案。”

Alluxio 高性能缓存架构

Alluxio 作为贴近计算部署的数据加速层,位于计算层与OCI 对象存储层之间,通过智能地管理跨内存与 NVMe 的素材,同时通过 POSIX 和 S3 API 向应用程序给出统一的命名空间。

请添加图片描述

Alluxio 在 OCI 支持两种部署模式

  1. 独立模式(Dedicated mode):Alluxio 运行在 DenseIO 节点集群上,每个节点都配备 NVMe硬盘和高网络带宽。该集群为外部客户端提供所有必需的文件和对象服务,从而最大限度地提高大型多 GPU 集群的吞吐量和一致性。
  2. 混合模式(Co-located mode):Alluxio 运行在 GPU 服务器上,使用闲置的 NVMe硬盘,无需新增硬件。这种模式经济高效,非常适合小型集群或单租户工作负载。由于 Alluxio 服务和运行在同一节点上的用户应用程序共享CPU 和缓存资源,其性能可能略低于独立模式。

请添加图片描述

独立模式(左)与混合模式(右)

这对你的团队意味着什么

假设一个机器学习团队正在 OCI 上训练一个大语言模型。由于昂贵的计算实例需要等待来自对象存储的素材,团队发现 GPU 利用率始终徘徊在 50% 左右。

无需更改任何一行应用程序代码或添加新硬件,仅仅通过在现有 GPU 服务器上以混合模式部署 Alluxio 软件, GPU 利用率可以立即提升到 95% 以上。这一简单的改动就能将模型训练时间缩短近一半,使机器学习团队能够更快地迭代,并提前将模型投入生产。

Alluxio 的架构为 OCI 用户带来以下核心价值:

  1. 通过即插即用式集成:无需将数据从一个存储迁移到另一个存储,只需挂载你的 OCI对象存储桶;无需导入或重构;无需任何代码更改,应用程序能够继续启用相同的对象路径。
  2. 高性能吞吐和低延迟:亚毫秒级数据访问和 TB/ 秒吞吐量——近乎线性扩展,最高可达可用网络带宽的 80%。
  3. 一致性无锁定: Alluxio 保留了 OCI 对象存储的原生格式,并确保缓存和后端数据的一致性;不涉及任何专有格式或供应商依赖。
  4. 灵活部署多 GPU 云:Alluxio 可无缝、自动地将正确的素材提供给每个 GPU,从而为应用程序提供低延迟和高带宽的数据访问。

将 OCI 对象存储中的数据缓存或预热到 Alluxio 后,后续读取操作将直接从本地 NVMe 或内存中献出,延迟将降低几个数量级。

基准测试结果

  1. 在 WARP 基准测试中,单节点部署实现 0.3 毫秒平均延迟;
  2. 在 MLPerf Storage 2.0 测试中,6 节点集群吞吐量达 61.6 GB/s;
  3. 同时保持 GPU 利用率稳定在 90% 以上。

请添加图片描述

以上的基准测试结果充分证明,将 Alluxio 与 OCI 的高性能裸金属基础设施相结合,是消除 AI/ML 和大数据分析中数据访问瓶颈的有效策略。依据在应用程序附近构建高性能缓存层,该解决方案能够充分发挥 OCI 计算和 GPU 资源的潜力,从而大规模地实现速度和一致性。

对于希望最大限度地提高 OCI 计算效率、加速 AI 创新和简化运行的组织而言,OCI 上的 Alluxio可帮助你消除数据孤岛、数据拷贝及配置变更,以及给出经过验证、用于生产环境的出色性能。

Alluxio-Oracle 云市场入口

Alluxio 与 OCI 的联合解决方案现已凭借 Oracle 云市场正式提供,客户可直接订阅并快速部署,加速AI落地进程。

Alluxio-Oracle 云市场入口:
https://cloudmarketplace.oracle.com/marketplace/en_US/listing/198398958

了解更多,请访问:
https://www.oracle.com/cn/cloud/

http://www.jsqmd.com/news/290448/

相关文章:

  • Cesium进阶教程:Shader与三维GIS可视化实战
  • Trae AI零基础编程入门:纯小白也能快速上手
  • java研发工程师必知必会
  • 【笔记】【底层逻辑1】
  • 静态 Top Tree
  • 【笔记】【周期】
  • typescript-类的访问权限public、private、protected
  • 【笔记】【逆向思维:顶级大脑的降维思考智慧】
  • 工信部擘画“开源新基建”:推动工业互联网平台生态跃迁
  • ASTM D4169-23e1测试,ASTM D4169标准模拟,包装运输测试ASTM D4169试验
  • 【课程设计/毕业设计】基于SpringBoot的医院医疗护工陪护系统的设计与实现基于springboot的护工管理便捷服务系统【附源码、数据库、万字文档】
  • 中国AI模型的“双向涟漪”——从全球南方自主到美企的市场转向
  • SRM+AI智能寻源:10分钟搞定供应商寻源!
  • Java计算机毕设之基于Springboot的医疗护理管理服务系统(完整前后端代码+说明文档+LW,调试定制等)
  • 强烈安利8个AI论文网站,本科生搞定毕业论文不求人!
  • firebird 数据库 C# 开发报错
  • 企业邮箱收费吗?解析主流品牌的三种收费模式
  • PCB行业MES厂商TOP3推荐:主流厂商对比与务实建议
  • PCB板上你是普通油墨,我是低损耗油墨,能一样吗?
  • 重组蛋白表达系统技术详解:从原核到真核的系统比较与选择指南
  • 针对工科论文或材料密集型研究,以下工具能有效优化AIGC检测结果,同时保持学术严谨性
  • FastAPI系列(03):路径操作装饰器方法及其参数
  • 快捷支付:高效应对高频交易痛点
  • 市场规模超千亿,银发客群成新宠!益生菌开启中老年大健康赛道下一风口?
  • 【计算机毕业设计案例】基于springboot的康复医院护工管理平台护工管理便捷服务系统(程序+文档+讲解+定制)
  • 爆火的 “死了么” APP安装包来了
  • Java毕设选题推荐:基于springboot的护工管理便捷服务系统基于SpringBoot的医院医疗护工陪护系统的设计与实现【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 题目 1429: 蓝桥杯2014年第五届真题-兰顿蚂蚁
  • 【毕业设计】基于springboot的护工管理便捷服务系统(源码+文档+远程调试,全bao定制等)
  • Ansys SpaceClaim 2025 R2 软件学习(DAY1):界面与功能详解