当前位置: 首页 > news >正文

《中间件》——kafka的工作原理解析

-


目录


Kafka介绍


一、 Kafka的特性:


二、Kafka的使用场景


三、Kafka 生产者-消费者


四、Consumer与Partition的关系


五、Kafka 与 Zookeeper


一、Kafka介绍



Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedin于2010年贡献给了Apache基金会并成为顶级开源 项目。


二、Kafka的特性



- 高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group 对partition进行consume操作。


- 可扩展性:kafka集群支持热扩展


- 持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失


- 容错性:允许集群中节点失败(若副本数量为n,则允许n-1个节点失败)


- 高并发:支持数千个客户端同时读写


![](https://i-blog.csdnimg.cn/blog_migrate/03e881a7c920c8870336ae46eae9c2ec.png)


2.1 broker在zk中注册
kafka的每个broker(相当于一个节点,相当于一个机器)在启动时,都会在zk中注册,告诉zk其brokerid,在整个的集群中,broker.id/brokers/ids,当节点失效时,zk就会删除该节点,就很方便的监控整个集群broker的变化,及时调整负载均衡。


2.2 topic在zk中注册
在kafka中可以定义很多个topic,每个topic又被分为很多个分区。一般情况下,每个分区独立在存在一个broker上,所有的这些topic和broker的对应关系都有zk进行维护


2.3 consumer(消费者)在zk中注册
2.3.1     注册新的消费者,当有新的消费者注册到zk中,zk会创建专用的节点来保存相关信息,路径ls /consumers/{group_id}/  [ids,owners,offset],Ids:记录该消费分组有几个正在消费的消费者,Owmners:记录该消费分组消费的topic信息,Offset:记录topic每个分区中的每个offset


2.3.2     监听消费者分组中消费者的变化 ,监听/consumers/{group_id}/ids的子节点的变化,一旦发现消费者新增或者减少及时调整消费者的负载均衡。
 


![](https://i-blog.csdnimg.cn/blog_migrate/9a778baa6ce4d266b89612cd35628feb.png)


三、Kafka的使用场景



- 日志收集:一个公司可以用Kafka可以收集各种服务的log,通过kafka以统一接口服务的方式开放给各种consumer,例如hadoop、Hbase、Solr等。


- 消息系统:解耦和生产者和消费者、缓存消息等。


- 用户活动跟踪:Kafka经常被用来记录web用户或者app用户的各种活动,如浏览网页、搜索、点击等活动,这些活动信息被各个服务器发布到kafka的topic中,然后订阅者通过订阅这些topic来做实时的监控分析,或者装载到hadoop、数据仓库中做离线分析和挖掘。


- 运营指标:Kafka也经常用来记录运营监控数据。包括收集各种分布式应用的数据,生产各种操作的集中反馈,比如报警和报告。


- 流式处理:比如spark streaming和storm


- 事件源


四、Kafka 生产者-消费者



消息系统通常都会由生产者,消费者,Broker三大部分组成,生产者会将消息写入到Broker,消费者会从Broker中读取出消息,不同的MQ实现的Broker实现会有所不同,不过Broker的本质都是要负责将消息落地到服务端的存储系统中。具体步骤如下:


生产者客户端应用程序产生消息:


客户端连接对象将消息包装到请求中发送到服务端


- 服务端的入口也有一个连接对象负责接收请求,并将消息以文件的形式存储起来


- 服务端返回响应结果给生产者客户端


- 消费者客户端应用程序消费消息:


客户端连接对象将消费信息也包装到请求中发送给服务端


- 服务端从文件存储系统中取出消息


- 服务端返回响应结果给消费者客户端


- 客户端将响应结果还原成消息并开始处理消息

![](https://i-blog.csdnimg.cn/blog_migrate/d828d07ad0eee8044de461438d1e962d.png)


五、Consumer与Partition的关系



- 如果consumer比partition多,是浪费,因为kafka的设计是在一个partition上是不允许并发的,所以consumer数不要大于partition数


- 如果consumer比partition少,一个consumer会对应于多个partitions,这里主要合理分配consumer数和partition数,否则会导致partition里面的数据被取的不均匀


- 如果consumer从多个partition读到数据,不保证数据间的顺序性,kafka只保证在一个partition上数据是有序的,但多个partition,根据你读的顺序会有不同


- 增减consumer,broker,partition会导致rebalance,所以rebalance后consumer对应的partition会发生变化


- High-level接口中获取不到数据的时候是会block的


负载低的情况下可以每个线程消费多个partition。但负载高的情况下,Consumer 线程数最好和Partition数量保持一致。如果还是消费不过来,应该再开 Consumer 进程,进程内线程数同样和分区数一致。


六、Kafka 与 Zookeeper



- Zookeeper 协调控制

1. 管理broker与consumer的动态加入与离开。(Producer不需要管理,随便一台计算机都可以作为Producer向Kakfa Broker发消息)


2. 触发负载均衡,当broker或consumer加入或离开时会触发负载均衡算法,使得一


   个consumer group内的多个consumer的消费负载平衡。(因为一个comsumer消费一个或多个partition,一个partition只能被一个consumer消费)


3.  维护消费关系及每个partition的消费信息。


- Zookeeper上的细节:

1. 每个broker启动后会在zookeeper上注册一个临时的broker registry,包含broker的ip地址和端口号,所存储的topics和partitions信息。


2. 每个consumer启动后会在zookeeper上注册一个临时的consumer registry:包含consumer所属的consumer group以及订阅的topics。


3. 每个consumer group关联一个临时的owner registry和一个持久的offset registry。对于被订阅的每个partition包含一个owner registry,内容为订阅这个partition的consumer id;同时包含一个offset registry,内容为上一次订阅的offset。


中间件系列篇


《Redis篇》——Redis快速入门


《Redis篇》——面试官最喜欢问的Redis知识


《Kafka篇》——Zookeeper搭载kafka消息发布和订阅


《Redis篇》——Redis的三种模式:主从、哨兵、集群


《Redis篇》——使用RedisTemplate对Redis的常用操作

http://www.jsqmd.com/news/922384/

相关文章:

  • 2026版机房动环智慧联动管控整体解决方案
  • 3分钟快速解密QQ音乐:qmcdump让你的加密音乐重获自由播放
  • JDK1.8的几个简单Lambda表达式
  • 终极魔兽争霸III游戏优化工具:简单三步提升你的游戏体验
  • 数据偏见:识别、规避与实战应对策略
  • Royal TSX中文汉化包:3分钟让专业远程管理工具说中文
  • 2026 年 5 个最佳 Agent Skills 平台推荐
  • 3个关键词让你的小爱音箱智能下载歌曲:Xiaomusic语音指令实用指南
  • 别再死记硬背公式了!用Python可视化带你直观理解两个高斯分布相乘(附Matlab/NumPy代码)
  • Maven与Gradle的区别
  • 终极网盘下载加速指南:3步实现直链解析与高速文件传输
  • 2026年珍珠棉厂家推荐排行榜:EPE珍珠棉/防震包装/五金电子包装/玻璃制品缓冲内衬/高密度珍珠棉卷材护角优选 - 企业推荐官【官方】
  • AI与大模型新闻日报 | 2026-05-31
  • 魔兽争霸3优化终极指南:5分钟解决现代电脑兼容性问题
  • 别再被间歇振荡搞懵了!用LTspice仿真RCC开关电源,从轻载到满载的完整避坑指南
  • 手把手教你用VMware安装华为EulerOS 2.0 SP5(附详细分区与开发环境配置)
  • 常州环创再生资源科技:江苏专业的废保护器回收公司怎么联系 - LYL仔仔
  • 西安曲江家政服务怎么选?2026曲江家政公司评测与实战落地指南 - 资讯快报
  • QMCDecode终极指南:3步快速解锁QQ音乐加密文件,免费实现音乐自由
  • Qt版本管理实战:从5.12.3平滑降级到5.9.8,并让VS2022同时识别多个Qt版本
  • 商业智能中AI的认知陷阱:如何识别与防范“听起来正确”的危险结论
  • 告别版本混乱!在Ubuntu 22.04上管理多个.NET SDK(8.0/6.0/7.0)的保姆级指南
  • 5个创意用法解锁Parsec-vdd虚拟显示器的隐藏潜力
  • AI赋能Web3营销:从数据洞察到个性化对话的实战指南
  • Visual Studio里那个烦人的C2143语法错误,我总结了新手最常踩的3个坑(附排查清单)
  • OBS StreamFX:免费打造专业级直播画面的终极特效插件
  • 新郑震捷再生资源:荥阳专业的废旧物资拆除公司有哪些 - LYL仔仔
  • D3KeyHelper终极指南:5分钟掌握暗黑3自动化战斗技能宏工具
  • 别等硬盘挂了才后悔!保姆级教程:用smartctl给你的Linux服务器硬盘做个全面体检(附关键指标解读)
  • 从N-gram到ChatGPT:语言模型的技术演进与核心原理剖析