当前位置：首页 > news >正文

PostgreSQL 12.2 源码探秘：手把手带你拆解Heap表文件，看懂数据在磁盘上的真实模样

news 2026/6/24 6:43:34

PostgreSQL 12.2 存储引擎深度解析：从二进制文件到内存结构的完整映射

在数据库系统的核心层，存储引擎扮演着数据持久化和高效访问的关键角色。PostgreSQL作为一款开源关系型数据库，其存储引擎的设计哲学体现了对可靠性和扩展性的极致追求。本文将带领读者深入PostgreSQL 12.2的存储引擎内部，通过直接分析磁盘文件结构和内存映射机制，揭示数据从存储介质到查询结果的完整生命周期。

1. PostgreSQL存储引擎架构概览

PostgreSQL的存储引擎采用经典的堆表(Heap Table)结构，这种设计源于传统关系型数据库的存储范式。堆表的核心特点是数据以非聚集方式存储，行数据可以存放在表的任何位置，通过额外的索引结构实现快速访问。

存储引擎的主要组件包括：

表空间管理：负责数据库文件的物理存储布局
页面管理：将数据文件划分为固定大小的页面(默认为8KB)
元组存储：处理行数据的物理存储格式
事务可见性：通过多版本并发控制(MVCC)实现事务隔离
空闲空间管理：跟踪和重用被删除数据占用的空间

在磁盘上，一个PostgreSQL数据库表现为$PGDATA/base目录下的一系列文件。每个数据库对应一个子目录，目录名是该数据库的OID。表数据存储在名为relfilenode的文件中，通常与表的OID相同。

$ ls -l $PGDATA/base/16384 total 1024 -rw------- 1 postgres postgres 8192 Jan 10 10:00 16430 -rw------- 1 postgres postgres 8192 Jan 10 10:00 16430_fsm -rw------- 1 postgres postgres 8192 Jan 10 10:00 16430_vm

2. 堆表文件的物理结构解析

2.1 页面布局剖析

PostgreSQL将每个表文件划分为固定大小的页面(默认为8KB)，每个页面包含以下关键部分：

区域	偏移量	大小	描述
PageHeader	0	24字节	页面元数据信息
LinePointer数组	24	变长	指向元组的指针数组
空闲空间	变长	变长	可用于存储新元组的空间
特殊空间	页面末尾	变长	用于特殊用途的空间

页面头部(PageHeaderData)的结构定义如下：

typedef struct PageHeaderData { PageXLogRecPtr pd_lsn; /* 最后修改的LSN */ uint16 pd_checksum; /* 页面校验和 */ uint16 pd_flags; /* 标志位 */ LocationIndex pd_lower; /* 空闲空间起始位置 */ LocationIndex pd_upper; /* 空闲空间结束位置 */ LocationIndex pd_special; /* 特殊空间起始位置 */ uint16 pd_pagesize_version; /* 页面大小和版本 */ TransactionId pd_prune_xid; /* 可回收的最老XID */ ItemIdData pd_linp[FLEXIBLE_ARRAY_MEMBER]; /* 行指针数组 */ } PageHeaderData;

2.2 元组存储格式

每个元组(行数据)在页面中的存储分为三个部分：

HeapTupleHeader：元组的元数据信息
NULL位图：标识哪些列值为NULL
用户数据：实际的列值数据

HeapTupleHeader的关键字段包括：

typedef struct HeapTupleFields { TransactionId t_xmin; /* 插入事务XID */ TransactionId t_xmax; /* 删除/更新事务XID */ union { CommandId t_cid; /* 插入/删除命令ID */ TransactionId t_xvac; /* VACUUM操作XID */ } t_field3; } HeapTupleFields; typedef struct HeapTupleHeaderData { union { HeapTupleFields t_heap; DatumTupleFields t_datum; } t_choice; ItemPointerData t_ctid; /* 当前或新元组的位置 */ uint16 t_infomask2; /* 属性数量+标志位 */ uint16 t_infomask; /* 各种标志位 */ uint8 t_hoff; /* 头长度+NULL位图 */ bits8 t_bits[FLEXIBLE_ARRAY_MEMBER]; /* NULL位图 */ } HeapTupleHeaderData;

3. 实战：使用pageinspect扩展分析存储结构

PostgreSQL提供了pageinspect扩展，允许直接查看页面和元组的内部结构。以下是使用示例：

-- 创建扩展 CREATE EXTENSION pageinspect; -- 创建测试表并插入数据 CREATE TABLE test_heaptuple (id int, name text, value float); INSERT INTO test_heaptuple VALUES (1, 'item1', 1.11); INSERT INTO test_heaptuple VALUES (2, 'item2', 2.22); -- 查看页面头部信息 SELECT * FROM page_header(get_raw_page('test_heaptuple', 0)); -- 查看页面中的元组信息 SELECT lp, lp_off, t_xmin, t_xmax, t_ctid, t_infomask, t_infomask2, t_hoff, t_bits, t_data FROM heap_page_items(get_raw_page('test_heaptuple', 0)); -- 查看元组属性数据 SELECT lp, t_attrs FROM heap_page_item_attrs( get_raw_page('test_heaptuple', 0), 'test_heaptuple' );

通过pageinspect工具，我们可以观察到：

新插入的元组t_xmin被设置为当前事务ID
t_xmax初始为0，表示该元组未被删除或更新
t_ctid指向自身，格式为(页面号,行指针号)
t_infomask和t_infomask2包含元组的各种状态标志

4. 堆表读写操作的内核实现

4.1 写入路径深度解析

PostgreSQL的写入操作遵循"WAL先行"原则，所有数据修改必须先写入WAL日志，然后才能修改内存中的数据页面。堆表插入操作的主要步骤如下：

元组头初始化：在heap_prepare_insert函数中设置元组头部的各个字段
查找可用页面：通过RelationGetBufferForTuple函数查找有足够空间的页面
冲突检测：检查事务隔离级别要求的各种约束条件
页面修改：将元组写入页面并更新页面头部信息
WAL日志记录：生成并写入描述此修改的WAL记录
标记缓冲区脏：标记包含修改页面的缓冲区为脏，将由后台写入器稍后写入磁盘

关键代码路径：

exec_simple_query -> PortalRun -> ProcessQuery -> standard_ExecutorRun -> ExecModifyTable -> ExecInsert -> table_tuple_insert -> heapam_tuple_insert -> heap_insert

4.2 读取路径优化策略

PostgreSQL的读取操作需要处理MVCC可见性判断，确保事务只能看到符合其隔离级别的数据版本。堆表扫描的主要步骤包括：

获取缓冲区：将包含目标元组的页面读入共享缓冲区
可见性检查：根据元组的xmin/xmax和事务快照判断是否可见
元组构造：将磁盘上的元组数据转换为内存中的HeapTuple结构
投影处理：根据查询需求提取所需的列值

读取操作的关键优化点：

预取：顺序扫描时预读后续页面
并行查询：多个worker进程协同扫描大表
仅索引扫描：当查询只需索引列时避免访问堆表

5. 高级存储特性与性能优化

5.1 TOAST机制处理大字段

PostgreSQL使用TOAST(The Oversized-Attribute Storage Technique)技术存储超过页面大小限制的字段值(默认阈值2KB)。TOAST将大字段值压缩或拆分为多个"烤面包片"存储：

TOAST策略	描述	适用场景
PLAIN	禁止压缩和行外存储	小字段
EXTENDED	允许压缩和行外存储	默认策略
EXTERNAL	允许行外存储但不压缩	文本等已压缩数据
MAIN	尽量行内存储，必要时行外	平衡策略

查看表的TOAST策略：

SELECT attname, attstorage FROM pg_attribute WHERE attrelid = 'test_heaptuple'::regclass;

5.2 空闲空间管理

PostgreSQL使用两个辅助结构管理堆表的空闲空间：

空闲空间映射(FSM)：记录每个页面的空闲空间概况
可见性映射(VM)：标记只包含全部可见元组的页面

这些结构显著提升了以下操作的效率：

新元组插入时的空间定位
VACUUM操作的目标选择
仅追加工作负载的性能

5.3 存储参数调优

PostgreSQL提供了多个表级存储参数用于性能优化：

CREATE TABLE perf_table ( id serial PRIMARY KEY, data text ) WITH ( fillfactor = 90, -- 页面填充因子(百分比) autovacuum_enabled = true, -- 启用自动清理 toast_tuple_target = 2000, -- TOAST行外存储阈值 parallel_workers = 4 -- 并行扫描工作进程数 );

关键优化建议：