当前位置：首页 > news >正文

深入解析Parquet列式存储：优势与性能调优实战

news 2026/4/2 18:23:40

1. 为什么Parquet能成为大数据分析的“宠儿”？

如果你处理过TB级别的数据，肯定对“等数据加载等到花儿都谢了”的体验深有感触。几年前，我还在用传统的CSV文件做数据分析，一个简单的聚合查询，光是读取数据就要等上十几分钟，大部分时间都花在了把一行行无关紧要的数据从硬盘搬到内存上。直到我开始接触Parquet，才真正体会到什么叫“数据读取也能飞起来”。今天，我就以一个过来人的身份，跟你聊聊Parquet列式存储到底强在哪里，以及怎么通过一些实战调优技巧，让它跑得更快。

简单来说，Parquet就是一种为大规模数据分析而生的文件格式。你可以把它想象成一个设计极其精巧的图书馆。传统的行存储（比如CSV）就像一本本按章节顺序排列的小说，你想查某个角色的所有出场记录，就得把整本书从头翻到尾。而Parquet这样的列存储，则像是一个按主题分类的档案室，所有角色的出场记录都单独放在一个抽屉里，你想查谁，直接拉开对应的抽屉就行，效率自然天差地别。

这种设计带来的好处是实实在在的。首先，它能大幅减少I/O开销。假设你有一张表，有100列，但你的查询只需要其中的3列。如果是行存储，系统不得不把包含这100列数据的整行数据全部从磁盘读出来，再从中过滤出那3列，95%以上的I/O都是浪费。而Parquet只会精准地读取那3列的数据块，I/O量可能直接降到原来的十分之一甚至更少。我实测过一个场景，同样的查询，从CSV切换到Parquet后，数据扫描时间从50秒降到了5秒，效果立竿见影。

其次，压缩效率极高。因为同一列的数据类型相同（比如都是整数、都是字符串），数据模式高度一致，Parquet可以针对性地使用非常高效的编码和压缩算法，比如字典编码、游程编码。这不仅能帮你省下大量的存储成本（通常能压缩到原始文本文件的1/4到1/10），更重要的是，更小的数据体积意味着从磁盘到内存的传输更快，进一步提升了处理速度。

最后，它完美适配现代CPU的向量化计算。列式存储让同一列的数据在内存中连续排列，CPU可以一次性加载一大块同类型数据到高速缓存，并用SIMD指令进行并行计算。这就好比从用勺子一勺一勺舀水，变成了用水管直接冲，计算吞吐量完全不是一个量级。主流的大数据引擎如Spark、Hive、Impala都深度优化了对Parquet的向量化读取，能最大化发挥硬件性能。

所以，无论你是数据工程师构建数仓，还是数据分析师进行即席查询，Parquet都是提升效率的利器。接下来，我们就深入它的内部，看看它是如何组织的，以及如何根据你的场景把它调整到最佳状态。

2. 拆解Parquet：从文件结构到核心概念

光知道Parquet好还不够，想调优，你得先明白它的“身体构造”。Parquet文件是二进制的，你不能像看文本文件一样直接打开它，但这正是它高效的原因。它的结构设计得非常巧妙，就像一个分层管理的集装箱仓库，每一层都有明确的职责。

2.1 核心组件：行组、列块与页

理解Parquet，最关键的是掌握三个概念：行组、列块和页。我们结合一个具体的例子来看。假设你有一个1亿行、10列的用户行为日志表，存成了一个Parquet文件。

首先，这个巨大的文件会被水平切分成若干个行组。你可以把每个行组想象成一个独立的数据块，它包含了表中连续的多行数据（比如100万行）。行组是Parquet读写操作在内存中的基本单元。当Spark要读取这个文件时，它会以行组为单位，将一个完整的行组加载到内存中进行处理。所以，行组的大小直接决定了你单次I/O操作的数据量和内存占用。后面我们会详细讨论如何设置它。

在每个行组内部，数据是按列组织的。也就是说，这100万行数据中的第一列数据会聚集在一起，形成一个列块；第二列的数据形成另一个列块，以此类推。因为列块内的数据类型完全一致，Parquet就可以为这个列块选择最合适的编码方式（比如，对于大量重复的省份字段用字典编码，对于连续递增的时间戳用Delta编码）进行压缩，这是列存储压缩率高的根本原因。

列块还不是最小的操作单元。每个列块还会被进一步细分为多个页。页是Parquet中进行编码和压缩的最小单位，也是数据读取时不可再分的最小数据块。为什么需要页呢？这主要是为了灵活性和效率。一个列块内的数据可能前半部分非常规整，后半部分比较随机，使用同一种编码方式效率不高。分成多个页后，每个页可以根据自身数据的特征选择独立的编码和压缩方式，实现更精细的优化。此外，当查询只需要某一列的部分数据时，系统可以以页为单位进行跳过，进一步细化I/O粒度。

2.2 与ORC的简单对比

提到列式存储，很多人会想到ORC。它们俩都是为Hadoop生态而生的优秀格式，该怎么选呢？根据我多年的使用经验，可以给你一个简单的参考。

Parquet最大的优势在于生态支持更广泛和对嵌套数据结构的原生支持更好。Parquet由Twitter和Cloudera联合推出，设计之初就考虑了跨平台和跨语言，被Spark、Hive、Impala、Presto、甚至Pandas等众多工具原生支持，可以说是大数据领域的“通用语”。而ORC最初是Hive项目的一部分，与Hive的集成度更深，但在Spark等框架中可能需要额外的适配。

对于嵌套数据（比如JSON中的数组、Map，或者Protobuf消息），Parquet使用Dremel论文中的“Striping/Assembly”算法，通过“重复级别”和“定义级别”两个核心概念，将复杂的嵌套结构扁平化存储，读取时再重新组装。这种设计使得它处理嵌套数据非常高效和自然。ORC虽然也支持复杂类型，但在这方面，Parquet的社区共识和实际表现通常更胜一筹。

所以，如果你的技术栈以Spark为核心，或者数据源包含大量嵌套的JSON/Avro格式，Parquet通常是更稳妥的选择。如果你的场景重度依赖Hive，并且数据模式相对扁平，ORC也值得考虑，它在某些纯Hive场景下的压缩率可能略有优势。

3. 性能调优实战：关键参数与配置策略

了解了原理，我们就可以动手调优了。调优的核心思想，就是让Parquet的组织结构和你底层文件系统、计算引擎的工作方式“同频共振”。这里有两个最关键的“旋钮”：dfs.blocksize和parquet.block.size。调不好，事倍功半；调好了，性能飙升。

3.1 HDFS块大小与Parquet行组大小的“黄金搭档”

首先必须明确一点：Parquet文件是物理存储在像HDFS这样的分布式文件系统上的。HDFS会把大文件切分成固定大小的块（Block），分散存储在不同的机器上。这个块的大小，就是由dfs.blocksize参数控制的，默认通常是128MB或256MB。

而parquet.block.size控制的是我们前面说的Parquet行组的大小。这里就产生了一个非常关键的配合问题：一个Parquet行组，最好能完整地放在一个HDFS块里。

为什么？因为大数据计算框架（如Spark、MapReduce）的任务调度是基于HDFS块的。一个Task通常会处理一个HDFS块的数据。如果我们的行组大小是512MB，而HDFS块大小是128MB，那么一个行组就会跨越4个HDFS块。这意味着，处理这个行组的Task，可能需要从4台不同的机器上远程读取数据，这会引入大量的网络I/O开销，严重拖慢速度。

反过来，如果行组大小是128MB，而HDFS块大小是1GB，那么一个HDFS块里会塞进很多个行组。虽然这不会引起远程读取，但会导致Task数量过多（每个行组可能被一个Task处理），造成任务调度开销增大。

所以，最理想的配置是让parquet.block.size等于dfs.blocksize。这样，每个行组恰好对应一个HDFS块，每个计算任务正好处理一个完整的行组，数据本地性最好，任务粒度也最合理。

那么，这个值该设为多大呢？社区的一个常见推荐是1GB。这个大小对于现代硬盘的连续读写性能比较友好，也能保证一个行组在内存中处理时不会占用过大内存（当然，这取决于你的服务器配置）。在我的生产环境中，对于数据量在TB级别以上的表，将两者都设置为1GB，相比默认的128MB，整体作业的I/O效率提升了约30%。

在Spark中，你可以在作业初始化时这样设置：

val spark = SparkSession.builder() .appName("Parquet Tuning Example") .getOrCreate() val ONE_GB = 1024 * 1024 * 1024 spark.sparkContext.hadoopConfiguration.setInt("dfs.blocksize", ONE_GB) spark.sparkContext.hadoopConfiguration.setInt("parquet.block.size", ONE_GB) // 然后进行你的读写操作 val df = spark.read.parquet("input_path") df.write.option("parquet.block.size", ONE_GB).parquet("output_path")

注意，在写入时通过.option再次指定parquet.block.size是一个好习惯，确保写入的Parquet文件采用你设定的行组大小。

3.2 内存、压缩与编码的权衡

行组大小也直接影响内存使用。前面说了，行组是读写的基本单元。读取时，至少需要将一个行组中需要的那几列数据加载到内存。虽然因为列式存储，我们只加载需要的列，但一个1GB的行组，即使只读其中两三列，也可能占用几百MB的内存。如果同时有多个任务并行执行，内存压力会很大。

因此，设置行组大小时，必须考虑你的Executor内存。一个简单的估算方法是：(行组大小 / 数据总列数) * 查询涉及的列数 * 并行任务数。这个值应该远小于Executor的可用堆内存。如果内存紧张，适当调小行组大小（比如256MB）是更安全的选择，虽然可能会牺牲一些I/O效率。

另一个调优点是压缩编解码器。Parquet支持Snappy、Gzip、LZO、Zstd等。我的经验是：

Snappy：默认选择。压缩和解压速度极快，虽然压缩率不如Gzip，但能在I/O和CPU开销间取得很好的平衡，适合热数据。
Gzip：压缩率最高，能最大程度节省存储空间，但压缩和解压更耗CPU。适合对存储成本敏感、访问不那么频繁的温/冷数据。
Zstd：后起之秀，在提供接近Gzip高压缩率的同时，拥有比Snappy更快的解压速度，非常值得尝试。在Spark 3.x中已得到良好支持。

你可以在写入时指定：

df.write .option("compression", "zstd") // 或 "snappy", "gzip" .parquet("output_path")

对于编码，Parquet会自动根据列的数据特征选择字典编码、位打包、游程编码等。你一般不需要手动干预。但在一种情况下可以优化：如果某个字符串列的基数（不同值的数量）非常高，字典编码反而会变成负担。你可以通过设置parquet.enable.dictionary为false来全局禁用字典编码，或者通过parquet.dictionary.page.size控制字典页大小，让Parquet在字典过大时自动回退到纯明文编码。

4. 在Spark与Hive中应用Parquet的最佳实践

理论说再多，不如实际操练一把。我们来看看在Spark和Hive这两个最常用的引擎里，怎么把Parquet的优势榨干。

4.1 Spark读写优化技巧

Spark是Parquet的“黄金搭档”。首先，尽量使用Spark SQL而不是原始的RDD API来操作Parquet，因为Spark SQL的Catalyst优化器能对Parquet进行下推、裁剪等深度优化。

谓词下推是Parquet在Spark中的王牌功能。当你执行df.filter("age > 30")这样的操作时，Spark会将这个过滤条件（谓词）下推到数据源层。Parquet文件的行组和页的元数据（如最大值、最小值）可以帮助跳过整个不满足条件的行组或页，在物理读取数据之前就过滤掉大量数据。为了充分利用这个特性，尽量在查询的早期进行过滤，并且确保过滤条件中的列是Parquet文件中的列。

列裁剪是另一个自动生效的优化。Spark会分析你的SQL语句，只读取SELECT和WHERE中涉及的列。所以，避免使用SELECT *，明确列出需要的列，能最大化这一优势。

对于分桶分区表，结合Parquet效果更佳。比如你按日期分区，再按用户ID分桶：

df.write .bucketBy(50, "user_id") // 分为50个桶 .sortBy("user_id") // 桶内排序，可进一步提升同一桶内查询性能 .partitionBy("event_date") .option("parquet.block.size", 1024*1024*1024) .option("compression", "snappy") .mode("overwrite") .saveAsTable("user_events_parquet")

这样，当查询WHERE event_date='2023-10-01' AND user_id=123时，Spark能快速定位到特定日期分区下的特定桶文件，再结合Parquet的谓词下推和列裁剪，速度飞快。

写入时还有一个细节：控制文件大小。使用df.repartition(n)或df.coalesce(n)来控制输出文件的数量和大小。文件太小，会产生大量小文件，给HDFS Namenode和后续读取带来压力；文件太大，则可能不利于并行处理。一个经验法则是，让每个文件的大小大致等于HDFS块大小（比如你设置的1GB）。

4.2 Hive集成与向量化查询

在Hive中使用Parquet，最关键的是开启向量化查询执行。这允许Hive一次处理一个批次的行（通常是1024行），而不是一行一行处理，能极大提升扫描和聚合性能。

你需要在我的Hive会话或hive-site.xml中设置：

SET hive.vectorized.execution.enabled = true; SET hive.vectorized.execution.reduce.enabled = true; -- 如果Reduce阶段也支持的话 SET parquet.column.index.access = true; -- 优化列访问

另外，确保Hive的表定义（DDL）中的列数据类型与Parquet文件中实际存储的数据类型一致，否则Hive会进行耗时的类型转换，甚至读取失败。使用CREATE TABLE ... STORED AS PARQUET创建表后，直接加载Parquet文件即可，Hive会从文件元数据中自动推断Schema。

对于Hive动态分区写入，同样要注意小文件问题。可以调整参数来控制每个Task的输出：

SET hive.exec.dynamic.partition.mode=nonstrict; SET hive.exec.max.dynamic.partitions=1000; SET hive.exec.max.dynamic.partitions.pernode=100; SET parquet.block.size=1073741824; -- 1GB SET hive.merge.smallfiles.avgsize=1073741824; -- 合并小文件，目标大小1GB SET hive.merge.size.per.task=1073741824;

4.3 踩坑记录：我遇到过的几个典型问题

最后，分享几个我踩过的坑，希望能帮你绕过去。

第一个坑是Schema演进冲突。Parquet支持Schema演进，比如新增列。但如果你在Spark中写入了一个新Schema的Parquet，然后用一个旧的、不包含新列的Schema去读取，有时会遇到麻烦。建议团队内对重要表的Schema变更做好沟通，或者使用像Delta Lake、Hudi这样的表格式管理工具，它们能更好地处理Schema变更。

第二个坑是时间戳时区问题。Parquet本身不存储时区信息。如果你用Spark将带有时区的时间戳写入Parquet，然后用Hive读取，可能会发现时间对不上。一个最佳实践是，在写入前将所有时间戳统一转换为UTC时间并存储为TIMESTAMP类型（而非TIMESTAMP WITH LOCAL TIMEZONE），在读取时再由应用层按需转换。

第三个是元数据开销。对于超宽表（比如上千列），Parquet的Footer（存储所有行组、列块的元数据）可能会变得非常大，甚至达到几十MB。这会导致打开文件读取元数据的操作变慢。这种情况下，适当增加行组大小，减少行组数量，可以控制Footer的膨胀。也可以考虑是否真的需要这么多列，进行表的垂直拆分。

调优从来不是一蹴而就的，它需要你根据数据特征、集群规模、查询模式进行反复试验和观察。从最关键的行组大小与HDFS块对齐开始，结合压缩编码的选择，再到计算引擎的特定参数，一步步调整。每次调整后，用真实的查询跑一跑，用Spark UI看看任务执行时间和I/O指标的变化，找到最适合你当前场景的那个“甜蜜点”。记住，没有放之四海而皆准的最优解，只有最适合你业务的最优解。

查看全文

http://www.jsqmd.com/news/471343/