百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

Kafka最全详解(6大架构原理图解)

bigegpt 2025-02-28 14:57 37 浏览

Kafka是非常重要的消息中间件,是构建高并发的基石,也是大厂重点考察内容,下面我就全面来详解Kafka@mikechen

本篇已收于mikechen原创超30万字《阿里架构师进阶专题合集》里面。

Kafka

Kafka是一个开源的分布式流处理平台,最初由LinkedIn开发并于2011年开源,它是一种高吞吐量、可扩展的消息队列系统,旨在处理大量的实时数据流。

Kafka的特点

Kafka的特点包括:

1.高吞吐量

Kafka被设计为一个高性能的消息队列系统,能够处理大规模的数据流,并提供低延迟的数据传输,它能够以每秒数十万条消息的速度进行读写操作。

2.分布式系统

Kafka是一个分布式系统,易于向外扩展,所有的producer、broker和consumer都会有多个,均为分布式的。

3.持久化存储

Kafka将所有的消息持久化地存储在磁盘上,因此即使在消息被消费之后,消息仍然可以被保留一段时间,这使得Kafka非常适合构建可靠的数据管道和进行数据回放。

4.可扩展性

Kafka支持横向扩展,机器不够加机器。

Kafka架构

Kafka架构,如下图所示:

Kafka的架构是分布式的,由多个组件组成,包括:生产者(Producers)、消费者(Consumers)、主题(Topics)、分区(Partitions)和代理(Brokers)。

以下是Kafka的典型架构组成:

1、主题(Topics)

Kafka主题:指的是消息的分类、或流的名称,主题用于逻辑上组织数据,使得相似类型的数据能够被集中在一起。

例如:一个电子商务应用程序可能有:一个主题用于订单数据,另一个主题用于用户行为数据,这就是主题。

Kafka 主题中的数据是持久的,一旦数据被写入主题,它将被保存在 Kafka 集群中。

2、分区(Partitions)

每个主题,可以被分为多个分区,分区是数据的物理存储单位,每个分区都是一个有序的消息日志。

每个分区中的消息,按照其发布的顺序进行存储,并且每个消息都被分配了一个唯一的偏移量(Offset)。

通过增加分区的数量,可以水平扩展 Kafka 集群的处理能力。

每个分区可以在集群的不同节点上进行存储和处理,从而提高了系统的可扩展性。

3、代理(Brokers)

代理是Kafka集群中的服务器节点,每个代理都是一个独立的Kafka服务器,负责消息的存储和转发。

代理接收来自生产者的消息,并将其持久化到磁盘上的日志文件中。

除此之外,它还负责处理消费者的读取请求、和消息的复制。

4、生产者(Producers)

生产者:负责将消息发布到Kafka的主题。

它们将消息发送到特定的主题、和分区,并且可以选择指定消息的键(Key),以便控制消息的分区策略。

5、消费者(Consumers)

消费者订阅一个、或多个主题,并从相应的分区中读取消息。

消费者可以以不同的消费组(Consumer Group)的形式进行组织,每个消费组可以有多个消费者,每个消费者负责处理一个或多个分区。

消费者可以按照自己的速度消费消息,并且可以随时重新读取旧的消息。

6、ZooKeeper

ZooKeeper负责:管理代理的元数据、领导者选举、消费者组的协调等关键任务。

Kafka使用ZooKeeper来协调、和管理集群中的代理和消费者。

Kafka应用场景

Kafka的应用场景包括:日志收集、事件驱动架构、实时分析、指标监控等,主要用于构建实时流数据管道和流处理应用程序。

  1. 消息系统:Kafka可以作为一个高效的消息中间件,用于解耦生产者和消费者。
  2. 指标监控:Kafka可以用于实时监控和分析,将指标数据发送到Kafka,然后通过流处理工具(如Spark Streaming)进行处理和告警。
  3. 事件驱动架构:Kafka可作为事件驱动架构的一部分,用于收集和传递各种事件。
  4. 日志聚合:Kafka可以作为日志聚合的解决方案,将各种日志数据集中聚合到一个地方。
  5. 分布式追踪:Kafka可以用于分布式系统跟踪,将各种数据发送到Kafka中进行实时处理和分析。

总之,Kafka是一个分布式流处理平台,用于高性能、可靠地处理实时数据流,并提供了可靠的消息传递、持久化存储和容错机制。

本篇已收于mikechen原创超30万字《阿里架构师进阶专题合集》里面。

相关推荐

Linux 系统启动完整流程

一、启动系统流程简介如上图,简述系统启动的大概流程:1:硬件引导UEFi或BIOS初始化,运行POST开机自检2:grub2引导阶段系统固件会从MBR中读取启动加载器,然后将控制权交给启动加载器GRU...

超专业解析!10分钟带你搞懂Linux中直接I/O原理

我们先看一张图:这张图大体上描述了Linux系统上,应用程序对磁盘上的文件进行读写时,从上到下经历了哪些事情。这篇文章就以这张图为基础,介绍Linux在I/O上做了哪些事情。文件系统什么是...

linux入门系列12--磁盘管理之分区、格式化与挂载

前面系列文章讲解了VI编辑器、常用命令、防火墙及网络服务管理,本篇将讲解磁盘管理相关知识。本文将会介绍大量的Linux命令,其中有一部分在“linux入门系列5--新手必会的linux命令”一文中已经...

Linux环境下如何设置多个交叉编译工具链?

常见的Linux操作系统都可以通过包管理器安装交叉编译工具链,比如Ubuntu环境下使用如下命令安装gcc交叉编译器:sudoapt-getinstallgcc-arm-linux-gnueab...

可算是有文章,把Linux零拷贝技术讲透彻了

阅读本文大概需要6.0分钟。作者:卡巴拉的树链接:https://dwz.cn/BaQWWtmh本文探讨Linux中主要的几种零拷贝技术以及零拷贝技术适用的场景。为了迅速建立起零拷贝的概念...

linux软链接的创建、删除和更新

大家都知道,有的时候,我们为了省下空间,都会使用链接的方式来进行引用操作。同样的,在系统级别也有。在Windows系列中,我们称其为快捷方式,在Linux中我们称其为链接(基本上都差不多了,其中可能...

Linux 中最容易被黑客动手脚的关键目录

在Linux系统中,黑客攻击后常会针对关键目录和文件进行修改以实现持久化、提权或隐藏恶意活动。本文介绍下黑客最常修改的目录及其手法。一、/etc目录关键文件有:/etc/passwd和/et...

linux之间传文件命令之Rsync傻瓜式教程

1.前言linux之间传文件命令用什么命令?本文介绍一种最常用,也是功能强大的文件同步和传输工具Rsync,本文提供详细傻瓜式教程。在本教程中,我们将通过实际使用案例和最常见的rsync选项的详细说...

Linux下删除目录符号链接的方法

技术背景在Linux系统中,符号链接(symlink)是一种特殊的文件,它指向另一个文件或目录。有时候,我们可能需要删除符号链接,但保留其指向的目标目录。然而,在删除符号链接时可能会遇到一些问题,例如...

阿里云国际站注册教程:aa云服务器怎么远程链接?

在全球化的今天,互联网带给我们无以计数的便利,而云服务器则是其中的重要基础设施之一。这篇文章将围绕阿里云国际站注册、aa云服务器如何远程链接,以及服务器安全防护如Ddos防火墙、网站应用防护waf防火...

Linux 5.16 网络子系统大范围升级 多个新适配器驱动加入

Linux在数据中心中占主导地位,因此每个内核升级周期的网络子系统变化仍然相当活跃。Linux5.16也不例外,周一最新与网络相关的更新加入了大量的驱动和新规范的支持。一个较新硬件的驱动是Realt...

搭建局域网文件共享服务(Samba),手机电脑都能看喜欢的影视剧

作为一名影视爱好者,为了方便地观看自己喜欢的影视作品,在家里搞一个专门用来存放电影的服务器是有必要的。蚁哥选则用一台Ubuntu系统的电脑做为服务器,共享影音文件,其他同一个局域网内的电脑或手机可以...

分享一个实用脚本—centos7系统巡检

概述这周闲得慌,就根据需求写了差不多20个脚本(部分是之前分享过的做了一些改进),今天主要分享一个给平时运维人员用的centos7系统巡检的脚本,或者排查问题检查系统情况也可以用..实用脚本#!/bi...

Linux 中创建符号链接的方法

技术背景在Linux系统里,符号链接(SymbolicLink),也被叫做软链接(SoftLink),是一种特殊的文件,它指向另一个文件或者目录。符号链接为文件和目录的管理带来了极大的便利,比...

一文掌握 Linux 符号链接

符号链接(SymbolicLink),通常被称为“软链接”,是Linux文件系统中一种强大而灵活的工具。它允许用户创建指向文件或目录的“快捷方式”,不仅简化了文件管理,还在系统配置、软件开发和日...