当前位置: 首页 > news >正文

从零学习Kafka:生产者压缩

前面了解了生产端的分区机制后,我们继续来看生产端的另一个重要的机制——压缩。

压缩与解压

说到压缩,第一个问题一定是 Kafka 在哪里进行压缩,又是在哪里进行解压的?

我不卖关子,直接告诉你答案,Kafka 通常在 Producer 端进行压缩,在 Broker 端保持,到了 Consumer 端解压。除了 Producer 端压缩之外,Broker 端也是可以进行压缩的,但这种情况并不常见。具体情况我们在下一节再聊。

在 Producer 端开启压缩的方法也很简单,我们在设置 Producer 属性时,增加 compression.type 参数即可,例如我们在 Producer 端启用 gzip 压缩,就可以这样设置:

props.put("compression.type", "gzip");

在 Kafka 中,压缩并不是针对单条消息,而是针对一个批次,那么如何才能提高压缩的效率呢?答案是增大批次的大小。因为压缩的本质是通过找到数据之间的重复模式来减少体积,批次内积累的数据越多,重复的可能性就越大,压缩概率也就越好。因此我们在启用压缩之后,还需要合理的设置 batch.sizelinger.ms 这两个参数。

重压缩

前面我们提到了 Kafka Broker 端也可以进行压缩,但只有在少数几种场景下才会出现,因为 Kafka 的设计初衷是 Broker 端尽量只做简单的磁盘读写操作。

由于 Broker 端进行压缩需要先把数据解压,然后进行处理,再压缩。我们把这一过程称为重压缩。

重压缩主要出现在以下三种场景:

场景一

压缩算法不一致,例如 Producer 端使用了 gzip 算法,但 Broker 端配置了 compression.type=lz4,这种情况 Broker 必须进行重压缩。

场景二

消息格式版本转换,Kafka 在 0.11.0.0 版本进行了一次消息格式版本的升级,新版本的消息会统一存储消息批次的公共信息。如果你的 Producer 版本是旧版本,Broker 是新版本,那么 Broker 就需要进行消息格式转换。这一操作也要涉及到重压缩。

场景三

Broker 侧注入时间戳,Kafka 支持两种时间戳,一种是 CreateTime,在 Producer 端直接设置。另一种是 LogAppendTime,这种时间戳是记录的 Broker 在写入磁盘时的时间戳,Broker 需要解压整个批次,然后修改每条消息的时间戳,再压缩整个批次。时间戳的配置参数是 log.message.timestamp.type,我们保持默认的 CreateTime 就好。

最后再提一下,重压缩是非常消耗 Broker 端 CPU 资源的,我们要尽量避免 Broker 端的重压缩,让它只做磁盘的读写操作就好。如果有 Broker 端 CPU 资源飙升的问题,也可以按照以上三种场景排查一下是不是重压缩引起的。

压缩算法

Kafka 支持了多种压缩算法,选择合适的压缩算法其实是在压缩率与 CPU 开销之间做出平衡。我们通过一个表格来对比一下几种压缩算法。

算法 压缩率 CPU消耗 压缩速度 适用场景
GZIP 存储敏感,带宽受限的归档、离线处理
Snappy 中等 较低 速度与资源之间取得良好平衡
LZ4 中等偏高 极低 极快 对延迟极度敏感的实时计算、交易等
Zstd 高,与 GZIP 接近 中等 较快 适合大部分通用场景

总的来说,4 种算法在实际使用过程中各有千秋,Zstd 是 Kafka 2.1.0 版本引入的,作为现代均衡的算法,可以作为默认选择。如果想要追求吞吐量,可以选择 LZ4。想要追求极致资源节省,可以选择 GZIP 或者 Zstd。

总结

最后总结一下本文的内容,我们先介绍了怎么 Kafka 在哪里进行压缩的以及如何开启压缩。接着又介绍了 3 种重压缩的场景,重压缩大概率会导致 Broker CPU 飙升。最后对比了 Kafka 支持的 4 种压缩算法。

最后想要抛出一个问题:Consumer 在解压数据时,需要关系 Producer 使用了哪种压缩算法吗?感兴趣的同学欢迎一起交流。

http://www.jsqmd.com/news/795524/

相关文章:

  • 从开发到上线:一份给全栈工程师的HTTPS证书自签名、转换与安全配置指南(含OpenSSL命令)
  • 学术研究者的数字工具困境:如何打通文献管理与知识沉淀的壁垒?
  • OpenClaw模型切换器:零依赖Web工具,一键切换AI模型
  • 网络数据包捕获与分析利器:wiremonitor 实战指南
  • JeecgBoot v3.9.2 升级重点摘要|一句话生成系统的低代码 v2.0 时代来了
  • 基于Python的分布式抖音内容下载引擎:架构解析与技术实现
  • 2026 安徽安庆彩钢瓦金属屋面外墙防水补漏防腐翻新公司 TOP5 权威推荐 + 避坑指南 - 速递信息
  • 2026 安徽池州彩钢瓦金属屋面外墙防水补漏防腐翻新公司 TOP5 权威推荐 + 避坑指南 - 速递信息
  • 绝区零一条龙:如何用全自动工具解放双手,告别重复劳动?
  • 泉盛UV-K5/K6固件深度定制:从基础刷机到专业功能全解析
  • 页面突然转化率暴跌,你怎么一步步排查原因?
  • 从概念验证到生产环境:Keep开源告警管理平台的5步完整实战部署指南
  • 2026年阀门行业发展趋势分析 - 米勒阀门
  • 2026年南京军事夏令营靠谱排名大揭秘,你家孩子适合哪个? - 速递信息
  • 激活函数进化史:从Sigmoid到Swish,聊聊那些年我们用过的‘非线性’神器与背后的故事
  • Java API 文档生成全解:从 javadoc 原理到 Dokka 选型
  • Ubuntu 22.04 LTS 下 Quartus Prime Lite 23.1 的安装与依赖问题全攻略
  • 2026年沥青撒布车与改性沥青生产设备采购指南:德州源头厂家的工程交付密码 - 企业名录优选推荐
  • VisualCppRedist AIO:一站式解决Windows系统VC++运行库问题的终极方案
  • 靠谱的照明灯具与灯饰灯具厂家 2026 年排名,广东厂家哪家强 - 博客万
  • 终极指南:3步掌握Obsidian Zettelkasten模板,快速构建高效知识系统
  • 2026最新全国罗纹面料公司推荐!优质权威榜单发布,实力靠谱广东东莞等地公司放心选 - 十大品牌榜
  • 精选山东一卡通回收4种渠道的折扣与时间对比 - 可可收
  • 神经渲染新范式:体素网格技术全解析与实战指南
  • 高效移除Windows Defender的3个实用方法:从核心引擎到界面清理
  • 2026年德州沥青加温设备与道路养护筑路设备深度横评选购指南 - 企业名录优选推荐
  • 娱乐圈天降紫微星承载使命,海棠山铁哥扛起原创影视复兴大旗
  • MATLAB图像处理实战:用imfindcircles函数精准识别彩色薯片中的圆(附完整代码)
  • 拆解正点原子MiniFly遥控器:从STM32F103C8T6到NRF24L01+,手把手分析硬件选型与电路设计
  • 2025 5-10 Nodejs 第一部分