当前位置：首页 > news >正文

kafka--基础--01--介绍

news 2026/6/24 23:47:53

1、Kafka介绍

架构示意图如下：

消息持久化：消息被持久化到一个 Topic 中
消费消息：
- 消费者可以订阅一个或多个 Topic
- 消费者可以消费 Topic 中所有的数据
- 同一条数据可以被多个消费者消费
- 数据被消费后不会立马删除
发布者：消息的生产者
订阅者：消息的消费者

架构示意图如下：

上图介绍：

1个 Topic 配置了 3 个 Partition。
- Partition1：有2个Offset(0和1)。
- Partition2：有4个Offset。
- Partition3：有1个Offset。
副本的 ID 和副本所在的机器的 ID 恰好相同。
如果一个 Topic 的副本数为 3，那么 Kafka 将在集群中为每个 Partition 创建 3 个相同的副本。
集群中的每个 Broker 存储一个或多个 Partition。
多个 Producer 和 Consumer 可同时生产和消费数据。

一台 Kafka 服务器就是一个 Broker，一个集群由多个 Broker 组成，一个 Broker 可以容纳多个 Topic。
Broker 和 Broker 之间没有 Master 和 Standby 的概念，它们之间的地位基本是平等的。
Kafka 集群包含一个或者多个服务器，服务器节点称为 Broker。
Broker 存储 Topic 的数据。如果某 Topic 有 N 个 Partition，集群有 N 个 Broker，那么每个 Broker 存储该 Topic 的一个 Partition。
如果某 Topic 有 N 个 Partition，集群有 (N+M) 个 Broker，那么其中有 N 个 Broker 存储该 Topic 的一个 Partition，剩下的 M 个 Broker 不存储该 Topic 的 Partition 数据。
如果某 Topic 有 N 个 Partition，集群中 Broker 数目少于 N 个，那么一个 Broker 存储该 Topic 的一个或多个 Partition。在实际生产环境中，尽量避免这种情况的发生，这种情况容易导致 Kafka 集群数据不均衡。

每条发布到 Kafka 集群的消息都有一个Topic。

生产者，向 Kafka Topic 发布消息的客户端。

Topic 中的数据分割为一个或多个 Partition。
- 每个 Topic 至少有一个 Partition。
- 每个 Partition 中的数据使用多个 Segment 文件存储。
Partition 中的数据是有序的，不同 Partition 间的数据丢失了数据的顺序。
- 如果 Topic 有多个 Partition，消费数据时就不能保证数据的顺序。
- 在需要严格保证消息的消费顺序的场景下，需要将 Partition 数目设为 1。

每个 Consumer 属于一个特定的 Consumer Group(可为每个 Consumer 指定 Group Name，若不指定 Group Name 则属于默认的 Group)。

每个 Partition 有多个副本，其中有且仅有一个作为 Leader，Leader 是当前负责数据的读写的 Partition。

Follower 跟随 Leader，所有写请求都通过 Leader 路由，数据变更会广播给所有 Follower，Follower 与 Leader 保持数据同步。
如果 Leader 失效，则从 Follower 中选举出一个新的 Leader。
当 Follower 与 Leader 挂掉、卡住或者同步太慢，Leader 会把这个 Follower 从 “in sync replicas”(ISR)列表中删除，重新创建一个 Follower。

消息在 Topic 的 Partition 中的位置，同一个 Partition 中的消息随着消息的写入，其对应的 Offset 也自增。结构图如下：

副本的意思
Topic 的 Partition 含有 N 个 Replica，N 为副本因子。
副本的类型有Leader和Follower
- Leader：只有一个，处理 Partition 的所有读写请求
- Follower ：除了Leader之外的所有副本，Follower 会定期去同步 Leader 上的数据