当前位置: 首页 > news >正文

Hudi 文件格式分析

Hudi 文件格式分析

请关注微信公众号:阿呆-bot

主题说明

Hudi 支持多种文件格式来存储数据,不同的格式有不同的特点和适用场景。理解文件格式的选择和使用,有助于优化存储和查询性能。

Hudi 主要使用两种文件格式:

  • Parquet:用于基础文件(BaseFile),列式存储,查询性能好
  • Avro:用于增量日志(LogFile),行式存储,写入性能好

另外还支持 ORC 作为基础文件的替代选择,以及 HFile 用于元数据表。

细化内容

Parquet 格式 - 基础文件

Parquet 是列式存储格式,特别适合分析型查询。Hudi 使用 Parquet 作为基础文件的默认格式。

Parquet 的特点:

  • 列式存储:相同列的数据存储在一起,压缩率高
  • 谓词下推:可以直接在文件层面过滤数据,减少IO
  • 投影下推:只读取需要的列,减少数据传输
  • 压缩效率高:列式存储天然适合压缩

在 Hudi 中的使用:

  • 基础文件(BaseFile)默认使用 Parquet
  • 文件名格式:{fileId}_{commitTime}.parquet
  • 支持 Schema 演化,可以添加新列

Avro 格式 - 增量日志

Avro 是行式存储格式,特别适合增量写入。Hudi 使用 Avro 作为增量日志的格式。

Avro 的特点:

  • 行式存储:一条记录的所有字段存储在一起
  • Schema 驱动:Schema 和数据分离,支持 Schema 演化
  • 紧凑的二进制格式:比 JSON 等文本格式更省空间
  • 写入性能好:追加写入效率高

在 Hudi 中的使用:

  • 增量日志(LogFile)使用 Avro
  • 日志文件包含多个数据块(Data Block)
  • 每个数据块可以包含多条记录

ORC 格式 - 替代选择

ORC(Optimized Row Columnar)是另一种列式存储格式,可以作为 Parquet 的替代。

ORC 的特点:

  • 列式存储:类似 Parquet
  • 支持 ACID 事务:原生支持更新和删除
  • 压缩率高:使用多种压缩算法
  • Hive 集成好:Hive 原生支持 ORC

在 Hudi 中的使用:

  • 可以作为基础文件的格式选择
  • 通过配置 hoodie.table.base.file.format=ORC 启用

HFile 格式 - 元数据表

HFile 是 HBase 的文件格式,Hudi 用它来存储元数据表。

HFile 的特点:

  • 键值存储:适合存储键值对数据
  • 排序存储:键按顺序存储,查找效率高
  • 支持 Bloom Filter:快速判断键是否存在

在 Hudi 中的使用:

  • 元数据表使用 HFile 格式
  • 存储文件列表、列统计等元数据信息

关键技术

文件格式的选择策略

Hudi 根据表类型选择文件格式:

Copy-on-Write 表:

  • 基础文件:Parquet(默认)或 ORC
  • 没有日志文件,每次更新都重写基础文件

Merge-on-Read 表:

  • 基础文件:Parquet(默认)或 ORC
  • 日志文件:Avro 格式
  • 查询时需要合并基础文件和日志文件

文件格式的读写器

Hudi 通过 HoodieIOFactory 来获取不同格式的读写器:

  • ParquetFileFormatUtils:Parquet 格式的读写工具
  • AvroFileFormatUtils:Avro 格式的读写工具
  • ORCFileFormatUtils:ORC 格式的读写工具

这些工具类封装了格式特定的读写逻辑。

Schema 演化支持

Hudi 支持 Schema 演化,可以在不重写数据的情况下添加新列:

  • Parquet:支持添加新列,向后兼容
  • Avro:支持 Schema 演化,通过 Schema Registry 管理
  • ORC:支持添加新列

Schema 演化时,旧数据的新列会使用默认值。

压缩和编码

不同格式使用不同的压缩和编码策略:

  • Parquet:支持 Snappy、Gzip、LZO 等压缩算法
  • Avro:支持 Deflate、Snappy 等压缩算法
  • ORC:支持 Zlib、Snappy、LZO 等压缩算法

压缩算法的选择影响压缩率和压缩速度。

关键对象说明

类关系图

image.png

关键类说明

  • HoodieFileFormat:文件格式枚举,定义了支持的格式类型。
  • HoodieIOFactory:IO 工厂类,根据存储和格式获取对应的工具类。
  • FileFormatUtils:文件格式工具抽象类,定义了序列化和反序列化的接口。
  • ParquetFileFormatUtils:Parquet 格式工具类,处理 Parquet 文件的读写。
  • AvroFileFormatUtils:Avro 格式工具类,处理 Avro 文件的读写。
  • HoodieLogFormat:日志文件格式接口,定义了日志文件的读写接口。
  • HoodieAvroDataBlock:Avro 数据块,日志文件中的数据块实现。

关键操作时序图

下面是一个文件读取操作的时序图,展示了如何读取 Parquet 基础文件和 Avro 日志文件:
image.png

代码示例

读取 Parquet 文件

// 获取 IO 工厂
HoodieIOFactory ioFactory = HoodieIOFactory.getIOFactory(storage);// 获取 Parquet 格式工具
FileFormatUtils parquetUtils = ioFactory.getFileFormatUtils(HoodieFileFormat.PARQUET);// 读取基础文件
HoodieBaseFile baseFile = fileSlice.getBaseFile().get();
List<HoodieRecord> records = parquetUtils.deserializeRecordsFromLogBlock(storage,baseFile.getPath(),schema
);

写入 Avro 日志文件

// 获取 Avro 格式工具
FileFormatUtils avroUtils = ioFactory.getFileFormatUtils(HoodieFileFormat.HOODIE_LOG);// 序列化记录到日志块
ByteArrayOutputStream outputStream = avroUtils.serializeRecordsToLogBlock(storage,records,schema,keyFieldName,paramsMap
);// 写入日志文件
HoodieLogFileWriter writer = HoodieLogFormat.newWriterBuilder().withStorage(storage).withLogFile(logFile).build();
writer.appendBlock(outputStream.toByteArray());

配置文件格式

// 配置基础文件格式为 ORC
HoodieWriteConfig config = HoodieWriteConfig.newBuilder().withPath(basePath).withBaseFileFormat(HoodieFileFormat.ORC).build();

总结

Hudi 支持多种文件格式,每种格式都有其适用场景。核心要点:

  1. Parquet 是基础文件的默认格式,列式存储,查询性能好
  2. Avro 是日志文件的格式,行式存储,写入性能好
  3. ORC 可以作为 Parquet 的替代,在某些场景下性能更好
  4. HFile 用于元数据表,键值存储,查找效率高
  5. 文件格式选择 影响存储效率和查询性能
  6. Schema 演化 支持在不重写数据的情况下添加新列

理解文件格式有助于优化 Hudi 表的存储和查询性能,选择合适的格式可以显著提升系统效率。

http://www.jsqmd.com/news/59985/

相关文章:

  • ai故事生成报告 - f
  • 落山基唬人队-冲刺总结
  • 深入解析:微信小程序通过关联公众号发送待办消息:实战指南
  • 团队作业4
  • 生命是一树花开
  • 深入解析:【5】理解GUID和Handle:解锁UEFI驱动和应用程序的钥匙
  • JavaSE--面向对象
  • 歌声转换SVC主流方法原理剖析4 — ReFlow-VAE-SVC
  • 重练算法(代码随想录版) day29 - 贪心part3
  • RocketMQ消息积压
  • spring的三级缓存及二三级缓存解决的问题 - 指南
  • 敏捷冲刺日志 - Day 5
  • 12月3日日记
  • 第五篇Scrum冲刺博客
  • 敏捷冲刺日志 - Day 6
  • 深入解析:Spring Kafka消费者被踢出组?CommitFailedException异常全面解析与解决方案
  • OWASP Java HTML 清理库曝出 XSS 漏洞:noscript 与 style 标签组合成隐患
  • 敏捷冲刺日志 - Day 4
  • 计算机视觉黄金时代的回顾与展望
  • homebrew运行机制
  • 敏捷冲刺日志 - Day 2
  • 10.结构型 - 代理模式 (Proxy Pattern)
  • 敏捷冲刺日志 - Day 1
  • 2025年中国集成灶十大品牌综合实力榜:选购指南与权威解析
  • 朝花夕拾OI回忆录
  • NOIp 的 p 是 painting 的 p!
  • AWS云计算入门指南:从零到一,详解核心服务与免费套餐 - 教程
  • 概率论直觉(二):方差与期望 - 实践
  • 图书馆管理系统项目冲刺 Day7
  • 就想赚点学分有什么不队-团队第三次作业—alpha冲刺