当前位置：网站首页 > 热门文章 > 正文

消息队列 | Kafka-分布式流处理平台浅析

bigegpt 2024-10-19 02:48 10 浏览

Kafka消息处理模式

Kafka采用PUSH-AND-PULL消息处理模式；其中：

Producer 向Broker PUSH数据(异步/同步)；

Consumer从Broker PULL数据。

Kafka文件存储结构(Kafka Topic和Partition分区)

Kafka以Topic为单位处理数据，并且在物理存储中以Partition的方式存储数据，

Topic 相当于一个队列，生产者发送的消费者必须指定topic， Kafka会均匀地把数据分布到不同的Partition，每个Partition相当于一个子Queue。

Partition 是Topic物理上的分组，一个Topic可以分为多个Partition，每个Partition是一个有序的队列,物理上topic按分区保存，名称为[topicname]-[partitionnum]；

添加新的Partition后，旧Partition中的数据不会改变，新的分区内容为空，在随后的进入Topic的消息会加入到新的分区中。

Partition物理上由多个Segment组成，相当于一个巨型文件被平均分配到多个大小相等Segment(段)数据文件中，但每个段segment file消息数量不一定相等，这种特性方便old segment file快速被删除。

Producer发message到某个topic，message会被均匀的分布到多个partition上（随机或根据用户指定的回调函数进行分布），kafka broker收到message往对应partition的最后一个segment上添加该消息，当某个segment上的消息条数达到配置值或消息发布时间超过阈值时，segment上的消息会被flush到磁盘，只有flush到磁盘上的消息consumer才能消费，segment达到一定的大小后将不会再往该segment写数据，broker会创建新的segment。

每个Segment存着message信息，消息存储的文件；包含.index和.log 2部分.

Segment文件命名规则：

Partion全局的第一个segment从0开始，后续每个segment文件名为上一个全局partion的最大offset(偏移message数)。

数值最大为64位long大小，19位数字字符长度(无符号整数)，没有数字用0填充;共20位,首位为0。

Segment文件大小默认1G，可在server.properties中修改配置。

Kafka Partition Replica (分区副本)

Partition Replica为分区副本，平均分布在各个broker,可以指定>=1 && <=broker数量的副本数，第一个Replica会作为Leader Partition提供服务，其他Replica作为follower;

选择Follower时需要兼顾一个问题,就是新leader server上所已经承载的partition leader的个数,如果一个server上有过多的partition leader，意味着此server将承受着更多的IO压力。

在选举新Leader，需要考虑到"负载均衡"，Partition leader较少的broker将会更有可能成为新的leader。

主分区提供读写服务，副本分区只作为冗余备份存在。

Consumer Rebalance的触发条件

Consumer增加或删除会触发 Consumer Group的Rebalance

Broker的增加或者减少都会触发 Consumer Rebalance

Topic 分区变化会触发Consumer Rebalance

Kafka最佳实践

Broker：至少配置3台服务组成集群。
Topic: 创建topic时，指定partition数量，最好>=broker数，提高kafka效率，和broker使用率；同时指定replica数量，replica最好>2,<=broker数量；
replica=1时，表示只有1份数据；replica不能大于>broker数量; replica>=2时,才能保证有某个broker宕机时，不影响业务(当所有存replica的broker都宕机后，该partition不能正常工作)。
设置消息超时时间，默认为7天。

UI客户端

KafkaTools

https://www.kafkatool.com/

完整预览

查看Partition中保存的消息

消费者消费信息查看

kafkatools

上一篇：Kafka常用命令使用说明 kafka --from-beginning
下一篇：.NET Core下Kafka部署安装及简单使用

消息队列 | Kafka-分布式流处理平台浅析

Kafka消息处理模式

Kafka文件存储结构(Kafka Topic和Partition分区)

Kafka Partition Replica (分区副本)

Consumer Rebalance的触发条件

Kafka最佳实践

UI客户端

相关推荐

无缓存不行?例行升级的入门级阿斯加特AN2 SSD装机点评

Ceph运维手册(基于P版本)

Docker 命令大全（docker命令大全记录表）

替代Docker build的Buildah简单介绍

Docker Desktop安装使用指南:零基础教程

Tensorflow分类loss函数总结 tensorflow绘制loss曲线

R语言学习笔记(七) -离散型数据的模型预测2

服务器硬件RAID性能横评(2)（服务器常用raid技术）

Python教程:第9篇字符串基本操作

k8s中三种POD调度策略介绍 k8s pod间调用

消息队列 | Kafka-分布式流处理平台浅析

Kafka消息处理模式

Kafka文件存储结构(Kafka Topic和Partition分区)

Kafka Partition Replica (分区副本)

Consumer Rebalance的触发条件

Kafka最佳实践

UI客户端

相关推荐

无缓存不行?例行升级的入门级阿斯加特AN2 SSD装机点评

Ceph运维手册(基于P版本)

Docker 命令大全（docker命令大全记录表）

替代Docker build的Buildah简单介绍

Docker Desktop安装使用指南:零基础教程

Tensorflow分类loss函数总结 tensorflow绘制loss曲线

R语言学习笔记(七) -离散型数据的模型预测2

服务器硬件RAID性能横评(2)（服务器常用raid技术）

Python教程:第9篇 字符串基本操作

k8s中三种POD调度策略介绍 k8s pod间调用

Python教程:第9篇字符串基本操作