当前位置：首页 > news >正文

ClickHouse中ReplicatedMergeTree与ReplacingMergeTree表引擎的去重机制深度对比

news 2026/4/5 23:07:39

1. 从实际案例看两种表引擎的去重差异

去年我在一个物联网项目中遇到了一个典型场景：设备每隔15秒上报一次状态数据，但由于网络波动，经常出现重复上报的情况。当时我分别用ReplicatedMergeTree和ReplacingMergeTree建了两张测试表，结果发现了很有意思的现象。

用ReplicatedMergeTree建表后插入重复数据，查询时居然看到了完全相同的两条记录。而换成ReplacingMergeTree后，相同主键的记录自动合并成最新的一条。这个现象让我开始深入研究两者的去重机制，发现它们虽然名字相似，但去重逻辑完全不同。

最核心的区别在于去重粒度：ReplicatedMergeTree是在数据块(block)级别去重，而ReplacingMergeTree是在行(row)级别去重。这就好比整理衣柜，前者是把相同的衣服包裹整个扔掉，后者是只留下最新的一件同款衣服。

2. ReplicatedMergeTree的去重机制详解

2.1 数据块级别的去重原理

ReplicatedMergeTree的去重发生在数据同步过程中，主要依赖两个关键参数：

replicated_deduplication_window：默认100，表示保留最近100个数据块的hash值
non_replicated_deduplication_window：用于非副本表的去重窗口

我做过一个测试：连续写入100条相同数据，发现只有前几条能成功写入。这是因为ClickHouse会为每个数据块生成唯一的hash值，当发现新数据块的hash值与ZooKeeper中记录的重复时，就会直接丢弃。

-- 创建副本表示例 CREATE TABLE metrics ( timestamp DateTime, device_id String, value Float32 ) ENGINE = ReplicatedMergeTree('/clickhouse/tables/{shard}/metrics', '{replica}') ORDER BY (device_id, timestamp);

2.2 副本同步中的去重流程

在实际写入过程中，主节点会先将数据写入临时目录，然后：

计算数据块的checksum
将元数据写入ZooKeeper的/log目录
副本节点监听ZK变更，拉取新数据
检查数据块hash是否已存在
若存在则跳过，否则写入本地存储

这里有个容易误解的点：主节点本身不进行hash校验，去重只发生在副本同步阶段。这就是为什么有时候主节点会有重复数据，而副本却没有。

3. ReplacingMergeTree的去重特性解析

3.1 行级去重的实现方式

ReplacingMergeTree通过在合并(Merge)时替换相同排序键的行来实现去重。建表时需要指定版本列：

CREATE TABLE metrics_replacing ( timestamp DateTime, device_id String, value Float32, version UInt32 ) ENGINE = ReplacingMergeTree(version) ORDER BY (device_id, timestamp);

我做过性能测试：对于1000万条有10%重复率的数据，ReplacingMergeTree的存储空间比ReplicatedMergeTree节省约15%。但要注意的是，去重不是实时的，只有在后台合并时才会触发。

3.2 最终一致性特点

这里有个重要知识点：ReplacingMergeTree的去重是最终一致的。我曾在生产环境踩过坑——刚写入的数据立即查询，发现重复记录还存在。后来通过以下方式解决：

-- 强制触发合并 OPTIMIZE TABLE metrics_replacing FINAL; -- 查询时去重 SELECT * FROM metrics_replacing FINAL;

FINAL关键字会让查询引擎在读取时执行合并操作，但会显著增加查询负载。建议在需要精确去重的查询中使用。

4. 两种引擎的适用场景对比

4.1 ReplicatedMergeTree的最佳实践

根据我的经验，以下场景适合使用ReplicatedMergeTree：

需要高可用的监控数据存储
日志分析系统
数据量巨大且允许少量重复的场合

在某个电商项目中，我们用ReplicatedMergeTree存储用户行为日志，配合TTL实现自动过期，即使有少量重复也不影响分析结果。

4.2 ReplacingMergeTree的典型用例

ReplacingMergeTree更适合这些场景：

设备状态表（需要保持最新状态）
需要严格去重的维度表
数据更新频繁但历史版本不重要的业务

比如在物联网平台中，我们用ReplacingMergeTree存储设备在线状态，确保每个设备只保留最新的一条记录。

5. 高级配置与性能调优

5.1 关键参数优化建议

对于ReplicatedMergeTree，我建议调整：

<merge_tree> <replicated_deduplication_window>500</replicated_deduplication_window> <max_replicated_merges_in_queue>16</max_replicated_merges_in_queue> </merge_tree>

对于ReplacingMergeTree，要注意：

-- 合并操作的内存限制 SET max_bytes_to_merge_at_max_space_in_pool = 10737418240;

5.2 常见问题排查

遇到过最棘手的问题是ZooKeeper压力过大导致副本同步延迟。通过以下方法解决：

增加replicated_deduplication_window减少ZK写入
调整background_pool_size增加合并线程
监控system.replication_queue表

另一个常见误区是认为ReplacingMergeTree能完全替代唯一约束。实际上它只保证最终一致性，需要实时去重的场景还是要配合FINAL关键字使用。

查看全文

http://www.jsqmd.com/news/584190/

基于深度学习的轴承缺陷检测系统(YOLO12/11/v8/v5模型+django)o(源码+lw+部署文档+讲解等)

从VGG到ResNet：手把手教你用CAM给不同CNN架构‘拍X光片’（附代码对比）

深入解析AdaptiveAvgPool2d：从原理到实践

OpenClaw监控面板：实时查看Kimi-VL-A3B-Thinking资源占用情况

BurpSuite插件fakeIP安装避坑指南：解决Jython环境配置与Python脚本加载问题

用IDM抓取网页动态资源

OpenClaw自动化周报生成：Qwen2.5-VL-7B分析工作截图产出周总结

OpenClaw+Phi-3-mini-128k-instruct学术助手：文献综述自动生成

SAP BASIS手记：从零搞定SMTP邮件服务器配置（SCOT/SICF/SU01保姆级流程）

别再死记硬背了！用Python脚本帮你快速掌握RSA、AES、Diffie-Hellman等核心加密算法

OpenClaw任务链设计：Qwen3-14b_int4_awq模型多步骤执行

Windows效率翻倍！这些隐藏的Win+R命令和CMD技巧你用过几个？

LeetCode 二叉搜索树双神题通关！有序数组转平衡 BST + 验证 BST，小白递归一把梭

2026年比较好的纯三层实木拼花地板深度厂家推荐 - 品牌宣传支持者

OpenClaw技能开发指南：为SecGPT-14B定制专属安全检测模块

Unity Package Manager从入门到精通：除了导入Asset Store，你还能这样玩转自定义插件

OpenClaw极简配置：Gemma-3-12b-it单文件部署方案（无需Node环境）

机器学习（1）快速搭建Pytorch开发环境

从传统部署到云原生的迁移策略

2.5MW ANPC拓扑储能变流器PCS整流器仿真搭建之旅

机械键盘防抖优化指南：提升输入稳定性的完整解决方案

LLCOM串口调试工具：Lua脚本驱动的自动化实践

保姆级教程：在Vitis HLS 2022.2中配置Vision库和OpenCV 4.4.0（附完整编译参数）

（开头直接进入主题，无废话）

LlamaFactory实战：5分钟搞定LoRA微调，让你的大模型秒变中文专家

OpenClaw网络优化：Qwen3.5-9B模型响应加速方案

5大优势+零基础指南：开源字体思源宋体商用全攻略

2026年评价高的承重停车棚厂家精选合集 - 品牌宣传支持者

法律文书专家：OpenClaw+Qwen3.5-9B合同审查自动化

Airtest+Poco自动化测试避坑指南：从环境搭建到报告生成的10个常见问题