当前位置：首页 > news >正文

Apache Doris存储引擎实战：从LSM-Tree到列式存储的优化技巧

news 2026/7/27 16:21:27

Apache Doris存储引擎实战：从LSM-Tree到列式存储的优化技巧

当你在深夜收到告警，发现Doris集群的写入延迟突然飙升到秒级；当你面对业务方"为什么查询变慢了"的灵魂拷问，却找不到明确原因——这些场景背后，往往隐藏着存储引擎的深层优化空间。今天，我们就撕开Doris的技术面纱，看看这个融合LSM-Tree与列式存储的引擎，如何在实战中发挥极致性能。

1. LSM-Tree在Doris中的魔改实践

传统LSM-Tree的写放大问题在分析型场景尤为致命。Doris的工程师们做了三项关键改造：

内存管理双缓冲机制

主动式MemTable切换：当活跃MemTable达到write_buffer_size的80%时，后台线程就提前创建备用MemTable
动态调整刷盘阈值：根据历史写入速率预测下一个刷盘窗口，避免集中式IO风暴

# 查看当前MemTable状态 SHOW BACKENDS\G # 关键指标：LastestSuccessWriteTimeMs

分层压缩策略对比

压缩类型	触发条件	资源消耗	优化重点
Cumulative	Delta文件数≥5	低	合并小文件
Base	版本数≥10或大小超限	高	全局有序化
Vertical Merge	列统计信息显示高重叠度	中	列存局部性优化

注意：BaseCompaction建议设置在业务低峰期，通过tablet_max_pending_versions控制积压量

写入热点疏散方案

识别热点分片：SHOW PROC '/statistic/tablet_scheduler'
动态调整分片策略：

ALTER TABLE orders SET ( "replication_allocation" = "tag.location.group_a:1, tag.location.group_b:2" );

临时提升写入并发度：set global parallel_fragment_exec_instance_num=16;

2. 列式存储的冷兵器对决

列存不只是数据排列方式的改变，Doris在存储格式层面做了深度定制：

编码类型选型指南

BIT_SHUFFLE：适合低基数列（如状态字段），压缩率可达10:1
DICT_ENCODING：对基数<10000的字符串列效果显著
DELTA_BINARY：时序数据的最佳拍档，比普通RLE节省30%空间

局部排序优化术

# 通过CLUSTER BY实现数据局部有序 CREATE TABLE user_events ( user_id BIGINT, event_time DATETIME ) ENGINE=OLAP CLUSTER BY (user_id, date_trunc('hour', event_time));

实战效果：某电商用户行为表查询提速4倍，存储节省22%

智能索引组合拳

ZoneMap：自动为每1024行记录min/max值
BloomFilter："bloom_filter_columns" = "user_id,order_no"
倒排索引："inverted_index_storage_format" = "V1"

3. 写入性能的极限压榨

某金融客户实测案例：从5000TPS到12万TPS的优化之路

批量写入的黄金法则

单批次数据量控制在16MB-32MB之间
使用Stream Load而非Insert语句

curl --location-trusted -u user:passwd \ -H "format: json" -H "strip_outer_array: true" \ -T data.json http://fe_host:8030/api/db/tbl/_stream_load

WAL调优三件套

disable_wal=false：关键业务必须开启
wal_retention_size_gb=100：根据磁盘容量调整
wal_dir=/ssd1/doris,/ssd2/doris：多盘负载均衡

内存控制生死线

-- 关键参数配置 SET GLOBAL load_process_max_memory_limit_bytes=8589934592; -- 8GB SET GLOBAL load_process_max_memory_limit_percent=30;

4. 存储空间的瘦身秘籍

冷热分离的自动化实践

定义存储策略：

CREATE RESOURCE remote_s3 PROPERTIES ( "type"="s3", "s3_endpoint" = "http://objects.example.com", "s3_region" = "us-east-1" ); CREATE STORAGE POLICY cold_policy PROPERTIES ( "storage_resource" = "remote_s3", "cooldown_ttl" = "30 days" );

绑定到表分区：

ALTER TABLE logs MODIFY PARTITION p202301 SET ("storage_policy" = "cold_policy");

压缩算法的选择困境

算法	压缩率	CPU消耗	适用场景
LZ4	2.1x	低	实时写入
ZSTD(1)	3.5x	中	温数据
ZSTD(3)	4.2x	高	冷数据/历史归档

碎片整理自动化脚本

# 自动触发低效分片合并 from doris.client import DorisClient client = DorisClient(fe_host='127.0.0.1') def auto_compact(): tablets = client.get_fragmented_tablets(threshold=0.7) for tablet in tablets: client.run_compaction(tablet['tablet_id'], 'CUMULATIVE') # 凌晨执行BaseCompaction if datetime.now().hour == 2: client.run_global_compaction('BASE')

5. 查询加速的存储层魔法

预聚合的艺术

CREATE MATERIALIZED VIEW store_sales_mv DISTRIBUTED BY HASH(store_id) REFRESH ASYNC AS SELECT store_id, date_trunc('day', sale_time) as day, SUM(amount) as daily_amount, COUNT(distinct user_id) as uv FROM sales_raw GROUP BY 1, 2;

技巧：对UV等精确去重场景，设置"enable_unique_key_merge_on_write"=true

数据布局的战争

分区裁剪：PARTITION BY RANGE(dt)(PARTITION p2023 VALUES LESS THAN ('2024-01-01'))
分桶策略：DISTRIBUTED BY HASH(user_id) BUCKETS 32
Colocation Group："colocate_with" = "user_profile_group"

缓存预热黑科技

-- 主动加载热数据到Cache ADMIN SET FRONTEND CONFIG ("preload_metadata" = "true"); ADMIN SET FRONTEND CONFIG ("disable_storage_page_cache" = "false"); -- 查询时强制缓存 SELECT /*+ SET_VAR(use_page_cache=true) */ * FROM hot_table;

在给某社交平台优化feed流查询时，通过调整Rowset版本合并策略，将99分位延迟从1.2秒降到230毫秒。关键是把cumulative_compaction_min_deltas从5调整为3，同时启用vertical_compaction。这就像在LSM-Tree的阶梯上安装了电梯——既保留了层级结构的优势，又减少了数据爬楼的时间成本。

查看全文

http://www.jsqmd.com/news/587553/