当前位置：首页 > news >正文

DRAM-PIM技术加速数据库分析的原理与实践

news 2026/7/14 23:20:44

1. DRAM-PIM加速数据库分析的技术背景

现代分析型数据库系统面临的核心挑战是所谓的"内存墙"问题。当CPU需要处理存储在内存中的海量数据时，数据搬运消耗的带宽和延迟往往成为性能瓶颈。以典型的TPC-H查询为例，一个简单的过滤操作可能需要扫描数十GB数据，但实际有用的记录可能只占1%-5%。传统冯·诺依曼架构要求将所有数据从DRAM搬运到CPU寄存器进行处理，这种不必要的移动造成了巨大的资源浪费。

1.1 内存计算的演进路径

处理内存瓶颈的技术方案经历了三个主要发展阶段：

缓存优化阶段：通过改进预取算法、增大缓存容量来缓解问题。但面对分析型工作负载的随机访问模式，缓存命中率往往低于30%。
近数据处理阶段：将计算单元移至内存控制器附近，如Intel的IAA加速器。实测显示这种方法最高可获得2-3倍加速，但受限于通道级并行度。
存内计算阶段：直接在DRAM存储单元内部集成计算逻辑。三星的Aquabolt-XL在HBM内存中实现矩阵运算加速，但需要牺牲50%的存储密度。

Membrane架构的创新之处在于找到了性能与硬件成本的平衡点。通过将简单的比较操作下推到DRAM的bank层级，既充分利用了DRAM内部的并行性，又避免了复杂的架构改造。

1.2 OLAP工作负载特征分析

分析型查询具有几个关键特征使其适合PIM加速：

数据访问模式：顺序扫描为主，缺乏时间局部性。在TPC-H测试中，超过85%的查询时间消耗在全表扫描上。
计算密度：每字节数据只需执行1-3次简单比较操作。例如SSB查询Q3.1中，每128位数据仅需执行4次整数比较。
并行潜力：列式存储的数据布局天然支持SIMD处理。一个DDR4通道内的8个bank可以并行处理不同数据块。

下表对比了典型OLAP操作在PIM架构下的适用性：

操作类型	内存带宽需求	计算复杂度	数据依赖性	PIM适配度
过滤扫描	极高	低	无	★★★★★
哈希连接	高	中	中等	★★☆☆☆
聚合计算	中	高	高	★☆☆☆☆

注：实测数据显示，将过滤操作卸载到PIM后，TPC-H Q6的端到端延迟降低72%，而尝试用PIM加速哈希连接仅获得8%改进。

2. Membrane架构设计解析

2.1 银行级过滤单元(BFU)设计

BFU的核心创新在于其极简主义设计。与传统PIM方案不同，它没有引入通用计算单元，而是专注于优化单一功能——高速并行比较。每个BFU仅包含三个关键组件：

可配置比较器块(RCB)：
- 支持4/8/16/32/64位整数和浮点数比较
- 单周期完成==、!=、<、<=、>、>=六种操作
- 动态位宽处理能力：例如可同时比较8个8位zipcode
位图缓冲区：
- 64位寄存器存储比较结果
- 支持多谓词AND运算的流水线处理
- 每处理64个数据元素产生一个完整的位图块
控制单元：
- 接收来自内存控制器的谓词配置
- 协调DRAM行缓冲与RCB的时序
- 处理tRCD/tRAS等DRAM时序约束

这种设计带来两个关键优势：

面积开销仅0.1%，远低于Aquabolt的50%
功耗增加控制在4W/通道，无需额外散热

2.2 系统集成关键技术

2.2.1 反交错单元(DU)

传统DDR的比特交错存储方式会破坏数据的局部性。Membrane引入的DU模块通过重排数据布局，确保同一数据元素的全部比特位于相同bank。具体实现包括：

写路径处理：

// 示例：64位数据在x8配置下的重排 void du_write(uint64_t data, int chan, int rank) { for(int i=0; i<8; i++) { uint8_t byte = (data >> (i*8)) & 0xFF; dram[chan][rank][i].write(byte); // 同一字节写入同一芯片 } }

读路径处理：采用乒乓缓冲机制，在填充64字节缓存行时自动重组数据。

2.2.2 PIM页管理

Membrane定义了一种新的内存分配粒度——PIM页，其特点包括：

大小与DRAM行布局匹配（通常4MB）
通过filter_malloc()API分配
在页表项中添加PIM权限位
支持虚拟地址到物理bank的映射

这种设计使得操作系统可以：

避免PIM操作导致的TLB击穿
实现细粒度的内存隔离
保持与传统应用的二进制兼容

3. 软件栈优化实践

3.1 查询执行流程改造

Membrane对传统火山模型进行了关键修改：

过滤阶段：

# 传统流程 for row in table.scan(): if predicate(row): yield row # PIM优化流程 bitmap = pim_filter(table, predicate) # 批量生成位图 for chunk in bitmap.chunks(): # 按块处理 for pos in chunk.set_bits(): # 只读取匹配记录 yield table.fetch(pos)

流水线优化：

重叠PIM过滤与CPU端的聚合计算
使用双缓冲技术隐藏数据传输延迟
基于查询计划动态调整PIM页大小

3.2 部分反规范化策略

完全反规范化会导致存储膨胀（TPC-H达73%）。Membrane采用的混合策略包括：

静态分析阶段：
- 构建列关联图
- 计算每个列的过滤频率
- 评估反规范化收益/成本比
动态决策矩阵： | 因素 | 权重 | 评估标准 | |---------------------|------|------------------------------| | 连接操作频率 | 0.4 | >5次/查询则优先反规范化 | | 过滤选择性 | 0.3 | 选择性<15%时收益显著 | | 列宽度 | 0.2 | 窄列(<16B)优先 | | 更新频率 | 0.1 | 只读或低频更新列适合 |

实测显示，这种策略在TPC-H上实现17%存储开销换取5.9倍加速。

4. 性能优化与调优

4.1 银行并行度利用

通过三种技术最大化bank级并行：

数据分片：
- 按PIM页边界对齐分割
- 保证各bank工作量均衡
- 示例：600MB表在8通道系统分为150个4MB分片
命令调度：

# DRAM命令序列示例 ACT R0 B0 # 激活bank0行0 ACT R0 B1 # 同时激活bank1行0 CMP B0 C0 # bank0比较列0 CMP B1 C0 # bank1比较列0 ... PRE B0 # 预充电bank0

电源管理：

采用bank分组轮流激活
限制瞬时电流不超过VRM承载能力
动态调整tFAW参数

4.2 谓词下推优化

将过滤条件尽可能下沉到PIM层：

条件分解：
- 将复杂逻辑表达式转换为合取范式
- 例如：(a>10 OR b<5) AND c=20→PIM(a>10 AND c=20) OR PIM(b<5 AND c=20)
字典编码处理：
- 在PIM配置阶段预加载字典
- 将字符串比较转换为整数范围检查
- 支持IN列表转换为位图掩码

5. 实际部署考量

5.1 硬件兼容性

Membrane设计考虑了实际部署约束：

DRAM标准兼容：
- 保持JEDEC标准引脚定义
- 仅新增两个MRS配置寄存器
- 不影响常规读写时序
散热解决方案：
- 全bank激活时功耗增加4W/通道
- 建议使用3U服务器散热设计
- 可通过节流机制控制温升

5.2 数据库集成

在DuckDB中的实现要点：

优化器扩展：
- 新增PIMFilterScan物理算子
- 成本模型考虑PIM/CPU切换阈值
- 支持谓词重写规则
内存管理：

-- 特殊表属性声明 CREATE TABLE orders ( o_orderkey INTEGER PRIMARY KEY, o_custkey INTEGER REFERENCES customer(c_custkey) PIM_DENORMALIZE, ... ) WITH (PIM_ENABLED=TRUE);

监控接口：
- pim_profile()函数统计加速效果
- 动态调整PIM使用阈值
- 与现有EXPLAIN ANALYZE集成

6. 性能实测数据

6.1 基准测试结果

在双路Xeon 8380系统（8通道DDR4-3200）上的测试数据：

测试项	传统方案	全反规范化	Membrane	提升比
TPC-H Q1	12.7s	9.2s	2.8s	4.5x
TPC-H Q6	8.3s	6.1s	1.4s	5.9x
SSB Q3.1	6.5s	4.8s	1.0s	6.5x
存储开销	-	+73%	+17%	-

6.2 瓶颈分析

通过Amdahl定律分析显示：

过滤阶段耗时从占总查询72%降至9%
新瓶颈转为数据回传和聚合计算
进一步优化需要协调PIM与CPU流水线

7. 扩展应用场景

7.1 时序数据库加速

针对Prometheus等TSDB的优化：

将时间范围过滤下推至PIM
处理高基数metric标签
实测降低Thanos查询延迟58%

7.2 图分析优化

适用于邻接表存储模式：

并行扫描边列表
批量过滤满足条件的边
在PageRank中实现3.2倍加速

8. 开发者实践建议

8.1 模式设计准则

列类型选择：
- 优先使用整数类型而非字符串
- 对枚举类型使用字典编码
- 避免在PIM层处理JSON等复杂类型
分区策略：
- 按PIM页大小对齐分区边界
- 热分区配置为PIM_ENABLED
- 冷数据使用常规存储

8.2 查询编写技巧

谓词简化：

-- 不推荐 WHERE extract(year from date_col) = 2023 -- 推荐 WHERE date_col BETWEEN '2023-01-01' AND '2023-12-31'

避免PIM不兼容操作：
- 使用=代替LIKE
- 将OR条件拆分为多个查询
- 在CPU端处理复杂数学函数

9. 常见问题排查

9.1 性能调优检查表

症状	可能原因	解决方案
PIM加速比低于预期	数据未对齐PIM页边界	重建表并按4MB对齐
内存占用过高	过度反规范化	使用ANALYZE评估列关联度
比较操作失败	配置了不支持的数据类型	检查列编码格式
系统不稳定	电源供应不足	启用bank分组激活模式

9.2 调试工具使用

性能分析：

# 查看PIM加速效果 DuckDB> CALL pim_profile('SELECT...'); # 输出示例 PIM Filter: 3.2ms (CPU等效: 24.8ms) Data Transfer: 1.8ms CPU Processing: 5.4ms

硬件诊断：

通过MRS寄存器读取BFU状态
检查DRAM电源纹波
监控bank激活平衡性

10. 未来演进方向

3D堆叠内存集成：
- 在HBM中实现bank级BFU
- 利用TSV连接减少数据传输
- 预计可进一步提升能效比
近存储计算扩展：
- 将BFU理念应用于SSD控制器
- 实现存储层级的谓词下推
- 构建端到端的计算下放体系
查询编译器优化：
- 自动生成PIM指令序列
- 基于ML的谓词重排序
- 自适应数据布局转换

在实际部署Membrane架构时，需要特别注意DRAM时序参数的微调。我们发现在不同厂商的内存模块上，tRCD/tRP等关键参数需要根据BFU的处理延迟进行适配。建议在系统初始化阶段运行校准例程，建立最优的时序配置表。

查看全文

http://www.jsqmd.com/news/843117/

Typora不同版本集成LightBox插件实现图片放大查看的差异与实战

FreeRTOS互斥信号量实战：用STM32CubeIDE解决多任务访问共享串口的优先级翻转问题

USB2.0 Reset信号详解：从SE0状态到高速握手的完整时序分析

目标检测Neck进化史：从FPN到BiFPN，为什么PAN是承上启下的关键？

部门文件同步协作难？企业网盘选型必须知道的 3 个标准（含 5 款网盘实测）

从航拍到数据库：GIS技术在城市地块开发监测中的实战解析

从零实现一个Vue Canvas画板组件：支持画笔、橡皮擦和保存图片

给编程竞赛新手的保姆级指南：在Windows电脑上从零安装NOI Linux 2.0虚拟机（VirtualBox 6.0.24）

国网智能电表解决方案：从HPLC通信到远程费控的架构与实战

CW2015电量计实战：从芯片配置到精准电量读取

SpringBoot项目交付必备：手把手教你用TrueLicense 1.33实现软件授权与过期控制

告别浏览器打印差异！手把手教你用LODOP控件搞定复杂表格打印（附完整JS工具函数）

NotebookLM图书馆学研究落地难题全解（2024权威实证数据版）

全局光照演进史：从离线渲染到实时Lumen的算法脉络

避开网络陷阱：手把手教你离线部署Simulink-STM32硬件在环环境

从ARIMA到LSTM：气候时间序列预测的模型演进与实战选型指南

量子计算与机器学习：从基础原理到实践应用

Arm Cortex-R52 DSM仿真模型配置与调试指南

告别命令行！用mqtt-spy 1.0.1-beta图形化界面调试物联网设备，5分钟上手

DouyinLiveRecorder：构建多平台直播录制系统的核心技术解析

保姆级教程：用STM32+ESP8266+微信小程序，5分钟搞定Onenet数据上传与设备控制

IS802高频反激电源变压器选型实测：从空载饱和到带载效率的全面评估

GA/T 1400协议 - 从接口定义到代码实现：详解被订阅/取消订阅流程

时间自指涌现模型 × AI大脑架构设计草案（世毫九实验室技术报告TR-011-AI）

Qt开发环境配置避坑实录：从手动改PATH到用qtchooser管理Qt 5.12.8和6.2.4

告别阻塞！用C语言MQTT异步客户端（paho.mqtt.c）构建高响应物联网应用

遗传算法调参避坑指南：交叉率、变异率怎么设？种群大小多少合适？

逆向工程入门：手把手教你用dotPeek CLI批量处理一堆C#程序集