Ray Dataset 大规模数据处理(上)
第三章:Ray Dataset 大规模数据处理(上)
3.1 Ray Dataset 核心概念
Ray Dataset 是 Ray 生态系统中用于大规模数据处理的库,它提供了端到端的数据流水线能力,从数据加载、转换、到输出和推理,都可以在分布式集群上高效执行。Ray Dataset 的设计目标是成为连接数据存储和 ML 训练/推理的桥梁,同时保持对 PyArrow、Pandas、NumPy 等主流数据处理库的原生兼容性。
3.1.1 核心抽象:Dataset、Blocks、Schema
Ray Dataset 的数据模型围绕三个核心概念展开:
importrayimportpandasaspdimportnumpyasnp ray.init(