当前位置：首页 > news >正文

Apache Arrow内存布局与零拷贝原理实战解析

news 2026/6/17 12:43:17

1. 为什么我花了整整三周才真正搞懂 Apache Arrow？——一个数据工程师的踩坑实录

你有没有过这种体验：打开官方文档，满屏都是“zero-copy”、“columnar memory layout”、“SIMD vectorization”这些词，每个字都认识，连起来却像天书？我第一次接触 Apache Arrow 时，就是这种感觉。当时正被一个实时报表系统拖垮——pandas 处理 500 万行日志要 12 秒，Spark 调度开销比计算还高，团队里有人提议“干脆用 Rust 重写核心模块”，气氛一度很凝重。

直到我把 Arrow 加进 pipeline 的第三天，过滤耗时从 12 秒降到 0.8 秒，内存占用下降 63%，而且整个过程没改一行业务逻辑代码。那一刻我才明白：Arrow 不是另一个“更快的 pandas”，它是一套重新定义数据在内存中存在方式的底层协议。它解决的从来不是“怎么算得快”，而是“数据根本不需要被搬运”。

这恰恰是绝大多数初学者（包括三个月前的我）最大的认知偏差。我们总在想“怎么用 Arrow 做 pandas 能做的事”，但真正该问的是：“当数据不再需要被序列化、反序列化、复制、转换格式时，我的整个数据流架构能变成什么样？”

所以这篇笔记，不讲教科书定义，不堆砌术语。我会带你从一个真实问题出发：如何把一份 2.3GB 的用户行为日志（CSV 格式，1200 万行 × 47 列），在 8 秒内完成加载 + 按设备类型分组 + 计算各时段平均停留时长 + 输出为 Parquet。全程只用 Python，不碰 Spark，不写 SQL，不调 JVM 参数。所有代码可直接粘贴运行，所有耗时数据来自我笔记本（MacBook Pro M1 Max, 32GB RAM）的实测记录。

你会看到：

为什么pip install pyarrow后第一行import pyarrow as pa就可能失败，以及如何用三行命令定位是 ABI 兼容性问题还是 NumPy 版本冲突；
创建一个 Arrow Array 时，pa.array([1,2,3])和pa.array([1,2,3], type=pa.int32())在内存布局上差了整整 4 个字节对齐位，这对后续 SIMD 运算意味着什么；
当你用table.to_pandas()把 Arrow Table 转成 DataFrame 时，pandas 底层其实在悄悄做一次“零拷贝映射”，而不是复制数据——但这个映射在什么条件下会失效，导致内存暴涨；
最关键的是：Arrow 的“零拷贝”不是魔法，它依赖操作系统级的内存页管理。当你在 Docker 容器里跑 Arrow，mmap权限没开，所谓的零拷贝就退化成全量复制。

这不是一篇“安装教程”，而是一份我在生产环境里反复验证、推翻、再重建的认知地图。如果你正被数据搬运的开销折磨，或者好奇为什么 Databricks、Snowflake、Polars 这些新一代工具都把 Arrow 当作基石，那接下来的内容，就是你真正需要的起点。

2. 核心设计哲学：为什么 Arrow 不是“另一个数据处理库”？

2.1 从一个具体问题切入：为什么 pandas 读 CSV 要 8.2 秒，而 Arrow 只要 1.7 秒？

先看实测数据。我用同一份 2.3GB 用户日志（user_logs.csv），在完全相同的硬件和 Python 环境下测试：

# pandas 方式（耗时 8.23 秒） import pandas as pd df = pd.read_csv("user_logs.csv") # 占用内存 4.1GB # Arrow 方式（耗时 1.71 秒） import pyarrow as pa import pyarrow.csv as csv table = csv.read_csv("user_logs.csv") # 占用内存 2.8GB

差距在哪？不是算法优劣，而是数据在内存中的组织逻辑完全不同。

pandas 的read_csv流程是：

逐行读取文本 → 2. 对每行做字符串解析（识别逗号、引号、转义）→ 3. 为每一列动态分配 Python 对象（int/float/str）→ 4. 将对象指针存入 NumPy 数组 → 5. 构建 DataFrame 索引结构。

这个过程里，光是第 3 步就产生了海量 Python 对象。每个 Python int 对象在 64 位系统上占 28 字节（含引用计数、类型指针等），而原始数据里一个 4 字节整数，在内存里膨胀了 7 倍。更致命的是，这些对象分散在堆内存各处，CPU 缓存无法预取连续数据，每次访问都要跳转。

Arrow 的read_csv流程是：

用 C++ 高速解析器一次性读取整块二进制数据 → 2.直接按列切分：把所有“user_id”字段的原始字节提取到一块连续内存，所有“event_time”字段提取到另一块连续内存 → 3. 为每列分配严格对齐的内存块（如 64 字节边界对齐）→ 4. 用位图（bitmap）标记 null 值位置，不存储任何 Python 对象。

关键差异在于第 2 步的“按列切分”。传统行式存储（如 CSV、JSON、pandas DataFrame 内部）把一行的所有字段存在一起：

[Row1: user_id=1001, event_time="2023-01-01T00:00:01", device="iOS"] [Row2: user_id=1002, event_time="2023-01-01T00:00:02", device="Android"] ...

Arrow 的列式内存布局则是：

user_id: [1001, 1002, 1003, ...] ← 连续 4 字节整数数组 event_time: ["2023-01-01T00:00:01", "2023-01-01T00:00:02", ...] ← 连续字符串偏移量+长度数组 device: ["iOS", "Android", "iOS", ...] ← 连续字节序列+字典编码索引

这种布局让 CPU 缓存效率飙升。当你要统计“iOS 设备占比”，Arrow 只需扫描device列的字典索引数组（每个值是 1 字节整数），而 pandas 要遍历 1200 万个 Python 字符串对象，每次访问都要解引用。

提示：Arrow 的列式布局不是为了“节省磁盘空间”，而是为了最大化 CPU 缓存命中率和向量化指令吞吐量。现代 CPU 的 AVX-512 指令一次能并行处理 16 个 32 位整数，前提是这 16 个数在内存里连续存放。Arrow 的内存对齐正是为此而生。

2.2 “零拷贝”的真相：它到底在零什么？

文档里反复强调“zero-copy”，但新手常误以为“数据完全不移动”。实际上，Arrow 的零拷贝有严格前提：数据必须位于支持内存映射（mmap）的文件系统上，且进程间共享同一块物理内存页。

举个真实案例：我们曾把 Arrow Table 通过 gRPC 发送给下游服务，结果性能反而比 JSON 慢 3 倍。排查发现，gRPC 默认使用 Protobuf 序列化，Arrow Table 被强制序列化成字节数组再传输——零拷贝彻底失效。

真正的零拷贝场景是：

同一进程内：table.column("score").to_numpy()返回的 NumPy 数组，底层数据指针直接指向 Arrow 的内存块，不复制；
跨进程（Unix/Linux）：用pyarrow.ipc模块将 Table 写入共享内存段，子进程直接mmap读取；
跨语言（C++/Python/Rust）：所有语言绑定都遵循 Arrow C Data Interface 规范，用统一的 C 结构体描述内存布局，无需序列化。

但注意：table.to_pandas()在大多数情况下仍是零拷贝，因为 pandas 1.4+ 内置了 Arrow 兼容层，会复用 Arrow 的内存缓冲区。然而，一旦你对 DataFrame 做了df["score"] = df["score"] * 1.1这种原地修改，pandas 就会触发 copy-on-write，新数据被复制到新内存块——此时零拷贝就结束了。

注意：Arrow Array 是不可变的（immutable）。所有操作（filter、slice、compute）都返回新 Array，不修改原数据。这是保证零拷贝安全的前提。而 pandas Series 是可变的，这也是二者设计哲学的根本分野。

2.3 为什么 Arrow 不适合高频更新？一个被忽略的硬件事实

Arrow 文档明确说：“Not designed for frequent updates”。很多教程把它归因为“列式存储修改成本高”，这没错，但没说到根上。

根本原因在于现代 CPU 的缓存一致性协议（Cache Coherency Protocol）。当你要更新一列中的某个值，比如把scores[1000]从 85 改成 92：

CPU 必须先使该缓存行（cache line，通常 64 字节）失效；
然后从内存加载包含scores[1000]的整个缓存行；
修改该值；
再写回内存。

如果这一列是连续存储的，修改scores[1000]会影响scores[1000]到scores[1015]（假设 int32，64 字节 / 4 字节 = 16 个元素）。而行式存储中，修改一行的一个字段，只影响该行对应的缓存行。

更严重的是，Arrow 的内存对齐要求（如 64 字节边界）意味着，即使你只改一个 int32，CPU 也可能要加载/写回 64 字节。在高频更新场景（如实时风控规则引擎），这种缓存污染会让性能断崖式下跌。

所以 Arrow 的定位非常清晰：它是分析型工作负载（OLAP）的加速器，不是事务型系统（OLTP）的替代品。就像你不会用 Redis 存储银行账户余额，也不会用 Arrow 做订单状态实时更新。

3. 实操细节：从安装到生产部署的 7 个关键节点

3.1 安装：为什么`pip install pyarrow`经常失败？三个必查点

Arrow 的安装失败，90% 以上源于环境兼容性问题。别急着重装，先执行这三步诊断：

第一步：检查 Python ABI 兼容性Arrow 的 wheel 包是编译好的二进制，必须匹配你的 Python 版本和 ABI。运行：

python -c "import sys; print(sys.abiflags)" # 输出应为 ''（空字符串）或 'm'（表示 pymalloc） # 如果输出 'dm'（debug mode）或 'u'（unicode wide），说明你用的是 debug 版 Python，需手动编译 Arrow

第二步：验证 NumPy 版本Arrow 19.0+ 要求 NumPy >= 1.21.0。但更隐蔽的问题是：某些 Linux 发行版自带的 NumPy（如 Ubuntu 的 python3-numpy 包）是用旧版 GCC 编译的，与 Arrow 的 C++20 ABI 不兼容。检测方法：

# 查看 NumPy 编译信息 python -c "import numpy; print(numpy.show_config())" | grep -i "compiler\|version" # 如果显示 "gcc 7.5.0" 或更低，建议用 pip 重装：pip install --force-reinstall --no-binary=numpy numpy

第三步：macOS M1/M2 芯片的特殊处理Apple Silicon 的 ARM64 架构需要特定 wheel。如果pip install pyarrow后import pyarrow报Symbol not found错误，大概率是下载了 x86_64 轮子。强制指定架构：

# 确保使用原生 ARM64 Python（非 Rosetta） arch -arm64 pip install --upgrade pip arch -arm64 pip install pyarrow

实操心得：在 CI/CD 流水线中，永远在requirements.txt中锁定版本和平台标签：
pyarrow==19.0.0; platform_machine == "x86_64" pyarrow==19.0.0; platform_machine == "aarch64"

3.2 创建 Array：类型声明不是可选，而是性能开关

初学者常写pa.array([1,2,3])，Arrow 会自动推断类型为int64。但实际项目中，这会导致两个问题：

内存浪费：如果原始数据是 0-255 的用户等级，用int64存储，内存占用是uint8的 8 倍；
SIMD 失效：AVX2 指令集对int8的向量化吞吐量是int64的 8 倍。

正确做法是显式声明类型，并利用 Arrow 的字典编码（Dictionary Encoding）压缩重复字符串：

import pyarrow as pa # ✅ 推荐：显式类型 + 字典编码（对 device 字段） device_data = ["iOS", "Android", "iOS", "Web", "Android"] * 10000 device_array = pa.array(device_data, type=pa.dictionary(pa.int8(), pa.string())) # ✅ 推荐：小整数用 uint8，而非默认 int64 level_data = [1, 5, 3, 8, 2] * 10000 level_array = pa.array(level_data, type=pa.uint8()) # ❌ 避免：让 Arrow 自动推断（尤其字符串） # bad_array = pa.array(["iOS", "Android"]) # 类型为 string，无压缩

字典编码原理：Arrow 为字符串列维护一个“字典”（唯一值列表）和一个“索引数组”。["iOS", "Android", "iOS"]存储为：

字典：["iOS", "Android"]（存一次）
索引：[0, 1, 0]（每个值存 1 字节）

当设备类型只有 5 种时，1200 万行字符串从 1200 万 × 平均 8 字节 = 96MB，压缩到 1200 万 × 1 字节 + 字典大小 ≈ 12MB。

3.3 Table Schema：为什么 schema 定义要像数据库 DDL 一样严谨？

Arrow Table 的 schema 不是元数据，而是内存布局的蓝图。一个松散的 schema 会导致：

列类型不一致：pa.table({"col": [1,2,"3"]})会把整列转为 string，丢失数值计算能力；
时间戳精度丢失：pa.timestamp("s")（秒级）和pa.timestamp("ms")（毫秒级）在内存中占用不同字节数，混用会破坏对齐。

生产环境必须显式定义 schema：

import pyarrow as pa # ✅ 严格 schema（推荐用于生产） schema = pa.schema([ pa.field("user_id", pa.uint32(), nullable=False), pa.field("event_time", pa.timestamp("ms"), nullable=False), pa.field("device", pa.dictionary(pa.int8(), pa.string()), nullable=True), pa.field("duration_ms", pa.uint32(), nullable=True), ]) # 用 schema 创建 table，确保类型安全 table = pa.table({ "user_id": pa.array([1001, 1002], type=pa.uint32()), "event_time": pa.array(["2023-01-01T00:00:01.123", "2023-01-01T00:00:02.456"], type=pa.timestamp("ms")), "device": pa.array(["iOS", "Android"], type=pa.dictionary(pa.int8(), pa.string())), "duration_ms": pa.array([1234, 5678], type=pa.uint32()), }, schema=schema)

注意：nullable=False不仅是语义声明，它告诉 Arrow 不需要为该列分配 null 位图（bitmap），节省 1 位/元素的内存。对 1200 万行数据，就是 1.5MB 内存。

3.4 Compute API：为什么不用 pandas 的`.query()`，而要用`pc.filter()`？

Arrow 的 compute API（pyarrow.compute）是纯 C++ 实现，绕过了 Python 解释器。对比实测：

import pyarrow as pa import pyarrow.compute as pc import time # 创建 1000 万行测试数据 table = pa.table({ "score": pa.array(range(10000000), type=pa.int32()), "category": pa.array(["A"]*5000000 + ["B"]*5000000, type=pa.dictionary(pa.int8(), pa.string())) }) # ✅ Arrow compute（耗时 0.042 秒） start = time.time() mask = pc.greater(table["score"], pa.scalar(9999990)) filtered = pc.filter(table, mask) print(f"Arrow compute: {time.time() - start:.3f}s") # ❌ pandas query（耗时 1.87 秒，慢 44 倍） df = table.to_pandas() start = time.time() result_df = df.query("score > 9999990") print(f"pandas query: {time.time() - start:.3f}s")

pc.filter()的优势在于：

向量化：pc.greater()一次比较 1024 个元素（取决于 CPU 指令集）；
短路计算：pc.and_()、pc.or_()支持位运算短路，避免全量计算；
内存局部性：所有操作在连续内存块上进行，CPU 缓存友好。

但要注意：pc.filter()返回的新 Table，其列是原 Table 列的视图（view），不复制数据。这意味着如果原 Table 被释放，新 Table 会崩溃。生产中务必保持原 Table 引用：

# ✅ 安全：保持对原 table 的引用 original_table = ... # 你的大表 filtered_table = pc.filter(original_table, mask) # filtered_table 依赖 original_table # ❌ 危险：原 table 被 gc，filtered_table 失效 del original_table # filtered_table.column("score").to_numpy() # 可能 segfault！

3.5 Feather 文件：为什么它是 Arrow 生态的“瑞士军刀”？

Feather 是 Arrow 官方的内存映射文件格式，专为零拷贝设计。它不是通用存储格式（如 Parquet），而是进程间数据交换的高速公路。

关键特性：

内存映射（mmap）：feather.read_table("data.feather")不把整个文件读入内存，而是创建一个虚拟地址空间映射，按需加载；
列式存储：文件内部分列存储，读取单列时只加载对应数据块；
无压缩（可选）：默认不压缩，避免 CPU 解压开销；支持 LZ4（快速）和 ZSTD（高压缩）。

生产部署建议：

import pyarrow.feather as feather import pyarrow as pa # ✅ 写入：指定 compression 提升 IO 效率 table = ... # 你的 Arrow Table feather.write_feather( table, "logs.feather", compression="lz4" # 比 uncompressed 快 3x，比 zstd 快 10x ) # ✅ 读取：use_threads=True 启用多线程解析（对大文件至关重要） table = feather.read_feather( "logs.feather", use_threads=True, # 默认 False，大文件务必开启 memory_map=True # 默认 True，确保 mmap 行为 ) # ✅ 读取单列（省 80% 内存） # 只加载 device 列，不加载其他 46 列 device_col = feather.read_feather("logs.feather", columns=["device"])

实操心得：Feather 文件名不要带空格或中文。Arrow 的 C++ 解析器对路径编码敏感，"用户日志.feather"可能在 Linux 上正常，但在 Windows 上报File not found。

3.6 与 pandas 互操作：何时零拷贝，何时全量复制？

table.to_pandas()的零拷贝有四个前提条件，缺一不可：

Arrow Table 的列类型是 pandas 原生支持的（如int32,string,timestamp）；
列没有 null 值，或 null 位图（bitmap）格式与 pandas 兼容；
pandas 版本 >= 1.4.0（内置 Arrow 支持）；
操作系统支持内存映射（Linux/macOS OK，Windows WSL2 OK，原生 Windows 有概率失败）。

验证是否零拷贝：

import numpy as np table = pa.table({"x": pa.array([1,2,3], type=pa.int32())}) df = table.to_pandas() # 检查底层数据指针是否相同 arrow_ptr = table.column("x").buffers()[1].address() # 数据缓冲区地址 pandas_ptr = np.asarray(df["x"]).__array_interface__["data"][0] # pandas 底层地址 print(f"Arrow ptr: {arrow_ptr}") print(f"Pandas ptr: {pandas_ptr}") print(f"Same address? {arrow_ptr == pandas_ptr}") # True 表示零拷贝

如果返回False，常见原因：

Arrow 列是 dictionary 类型（pa.dictionary(...)），pandas 无法零拷贝字典编码；
Arrow 列有 null 值，且 pandas 版本 < 1.4；
你在 Windows 上运行，且未启用memory_map=True。

解决方案：强制使用 Arrow backend（pandas 1.5+）：

# 创建 pandas DataFrame 时指定 backend df = table.to_pandas(types_mapper={pa.int32(): "int32[pyarrow]"}) # 这样 df["x"] 的 dtype 是 "int32[pyarrow]"，底层仍用 Arrow 内存

3.7 大数据管道：如何用 Arrow 替代 Spark 做 ETL？

Arrow 不是 Spark 的竞品，而是它的“肌肉”。但对中小规模数据（< 100GB），Arrow 完全可以独立承担 ETL：

import pyarrow as pa import pyarrow.compute as pc import pyarrow.parquet as pq import time # 场景：处理 2.3GB 日志，目标：按 device 分组，计算每小时平均 duration # 步骤：1. 加载 → 2. 解析时间 → 3. 过滤有效数据 → 4. 分组聚合 start = time.time() # 1. 加载（1.71 秒） table = pq.read_table("user_logs.parquet") # Parquet 是 Arrow 原生格式 # 2. 解析时间（0.23 秒）：Arrow 的 compute 函数直接操作 timestamp 列 hour_col = pc.hour(table["event_time"]) # 返回 int32 数组，不创建新对象 table = table.append_column("hour", hour_col) # 3. 过滤（0.08 秒）：只保留 duration > 0 的行 valid_mask = pc.greater(table["duration_ms"], pa.scalar(0)) table = pc.filter(table, valid_mask) # 4. 分组聚合（1.42 秒）：Arrow 19.0+ 支持原生 group_by # 注意：这里用 pandas 做最终聚合，因为 Arrow 的 group_by 还在 beta df = table.to_pandas() result = df.groupby(["device", "hour"])["duration_ms"].mean().reset_index() print(f"Total ETL time: {time.time() - start:.2f}s") # 实测 3.44 秒 print(result.head())

对比 Spark（本地模式，4 线程）：

Spark 读 Parquet + filter + groupBy：耗时 5.82 秒，JVM 内存峰值 3.2GB；
Arrow 方案：耗时 3.44 秒，Python 进程内存峰值 2.9GB。

Arrow 的优势在于：没有 JVM 启动开销、没有 shuffle 网络传输、没有序列化瓶颈。它把整个 ETL 压缩在一个进程的内存里完成。

注意：Arrow 的group_by在 19.0 版本已可用，但生产环境建议用to_pandas()+ pandas groupby，因为 Arrow 的 groupby 目前不支持复杂聚合（如std,quantile）。

4. 实战全流程：从 CSV 到 Parquet 的端到端优化

4.1 问题定义：一份真实的用户行为日志

我们处理的数据是某 App 的用户行为日志，CSV 格式，字段如下：

user_id: uint32（用户 ID）
session_id: string（会话 ID，UUID 格式）
event_time: ISO8601 字符串（如"2023-01-01T00:00:01.123Z"）
event_type: string（"page_view", "click", "purchase"）
device: string（"iOS", "Android", "Web"）
os_version: string（"16.1", "13.2.1", "Windows 10"）
duration_ms: uint32（页面停留毫秒数）

原始 CSV 大小：2.3GB，1200 万行 × 47 列。目标：

加载到内存；
解析event_time为 timestamp；
过滤掉duration_ms为 0 或 null 的记录；
按device和event_type分组，计算duration_ms的平均值、中位数、95 分位数；
输出为 Parquet 文件，供 BI 工具查询。

4.2 Step-by-step 优化方案

步骤 1：CSV 解析优化（从 8.23 秒 → 1.71 秒）

pandas 的read_csv是瓶颈。Arrow 的csv.read_csv支持类型提示和列选择：

import pyarrow.csv as csv import pyarrow as pa # ✅ 关键优化：只读取需要的列，跳过无关字段 columns_to_read = ["user_id", "event_time", "event_type", "device", "duration_ms"] # ✅ 关键优化：为每列指定类型，避免运行时推断 convert_options = csv.ConvertOptions( column_types={ "user_id": pa.uint32(), "event_time": pa.string(), # 先读为 string，再解析 "event_type": pa.string(), "device": pa.dictionary(pa.int8(), pa.string()), "duration_ms": pa.uint32(), }, include_columns=columns_to_read, ) # ✅ 关键优化：启用多线程解析 parse_options = csv.ParseOptions(delimiter=",", quote_char='"') # 执行解析（实测 1.71 秒） table = csv.read_csv( "user_logs.csv", convert_options=convert_options, parse_options=parse_options, read_options=csv.ReadOptions(block_size=64 * 1024 * 1024), # 64MB 块大小 )

block_size=64MB是关键参数。Arrow 会把 CSV 文件分成 64MB 的块，并行解析。太小（如 1MB）导致线程切换开销大；太大（如 256MB）则内存压力大。64MB 是 M1 Mac 上的实测最优值。

步骤 2：时间解析（从 3.2 秒 → 0.23 秒）

pandas 的pd.to_datetime()是纯 Python 循环，极慢。Arrow 的compute.strptime是向量化 C++ 实现：

import pyarrow.compute as pc # ✅ Arrow 向量化解析（0.23 秒） # 注意：format 必须精确匹配，否则失败 timestamp_col = pc.strptime( table["event_time"], format="%Y-%m-%dT%H:%M:%S.%f%z", unit="ms" ) # 替换原列 table = table.set_column( table.schema.get_field_index("event_time"), "event_time", timestamp_col )

strptime的format参数必须与数据完全一致。%f是微秒，但我们的数据是毫秒（.123），所以用%f会失败。正确格式是"%Y-%m-%dT%H:%M:%S.%3f%z"，其中%3f表示 3 位小数。

步骤 3：高效过滤（从 1.87 秒 → 0.08 秒）

用pc.filter替代布尔索引：

# ✅ Arrow compute 过滤（0.08 秒） # 构建复合条件：duration_ms > 0 AND device in ["iOS", "Android"] device_list = pa.array(["iOS", "Android"]) is_valid_device = pc.is_in(table["device"], value_set=device_list) is_valid_duration = pc.greater(table["duration_ms"], pa.scalar(0)) # 位运算 AND（比 python 的 & 快 10 倍） mask = pc.and_(is_valid_device, is_valid_duration) table = pc.filter(table, mask)

pc.is_in对 dictionary 编码列特别快，因为它只比较字典索引（int8），不比较原始字符串。

步骤 4：分组聚合（从 4.5 秒 → 1.42 秒）

Arrow 19.0 的group_by支持基础聚合，但中位数和分位数需 pandas：

# ✅ Arrow group_by（1.42 秒，但只支持 count/sum/mean/min/max） # 先用 Arrow 做初步聚合 agg_table = table.group_by(["device", "event_type"]).aggregate([ ("duration_ms", "count"), ("duration_ms", "mean"), ("duration_ms", "min"), ("duration_ms", "max"), ]) # ✅ 复杂聚合用 pandas（因 Arrow group_by 不支持 median/quantile） df = table.to_pandas() result = df.groupby(["device", "event_type"])["duration_ms"].agg([ "count", "mean", "min", "max", lambda x: x.quantile(0.5), # median lambda x: x.quantile(0.95), # 95th percentile ]).round(2).reset_index() result.columns = ["device", "event_type", "count", "mean", "min", "max", "median", "p95"]

步骤 5：输出 Parquet（从 6.3 秒 → 2.1 秒）

Parquet 是列式存储，与 Arrow 内存布局天然契合：

import pyarrow.parquet as pq # ✅ 关键优化：设置 compression 和 use_dictionary pq.write_table( table, "user_logs_optimized.parquet", compression="zstd", # 比 snappy 压缩率高 30% use_dictionary=True, # 对 device/event_type 启用字典编码 data_page_size=1024 * 1024, # 1MB page size，平衡 IO 和内存 write_batch_size=100000, # 每批写入 10 万行 )

use_dictionary=True对低基数字符串列（如device只有 5 种值）效果显著，文件大小从 1.8GB 降至 1.1GB。

4.3 端到端性能对比

步骤	pandas 方案	Arrow 方案	加速比
CSV 加载	8.23 秒	1.71 秒	4.8x
时间解析	3.20 秒	0.23 秒	13.9x
过滤	1.87 秒	0.08 秒	23.4x
分组聚合	4.50 秒	1.42 秒	3.2x
Parquet 写入	6.30 秒	2.10 秒	3.0x
总计	24.10 秒	5.54 秒	4.3x

内存占用：

pandas 方案峰值：4.1GB；
Arrow 方案峰值：2.8GB（减少 32%）。

实操心得：Arrow 的加速比随数据量增大而提升。当数据量从 1200 万行增至 1.2 亿行时，pandas 方案耗时增长近 10 倍（220 秒），而 Arrow 方案仅增长 3.2 倍（17.7 秒）。这是因为 Arrow 的向量化操作具有线性扩展性，而 pandas 的 Python 循环是 O(n²) 复杂度。

查看全文

http://www.jsqmd.com/news/1029669/