当前位置：首页 > news >正文

Kafka入门介绍一

news 来源：原创 2024/5/14 10:13:03

介绍

Kafka是一个分布式系统，由服务器和客户端组成，通过高性能TCP网络协议进行通信。它可以部署在本地和云中的裸机硬件、虚拟机和容器上环境。

服务器：Kafka作为一个或多个服务器的群集运行，这些服务器可以跨越多个数据中心或云区域。其中一些服务器构成了存储层，称为代理。其他服务器运行KafkaConnect以持续导入和导出数据作为事件流，用于将Kafka与现有系统（如关系数据库）集成，以及其他Kafka集群。为了让您实现任务关键型用例，Kafka集群具有高度可扩展性容错：如果其任何服务器发生故障，其他服务器将接管其工作以确保连续操作，不会丢失任何数据。

客户端：它们允许您编写可读、写、并并行、大规模和容错的方式处理事件流，即使在网络的情况下也是如此问题或机器故障。Kafka附带了一些这样的客户端，Kafka提供了数十个客户端社区：客户端可用于Java和Scala，包括更高级别的KafkaStreams库、Go、Python、C/C++和许多其他编程语言以及RESTAPI。

主要概念

生产者和消费者

生产者

Kafka生产者发送数据时会直接与分区领导者（leader） broker进行交互。

Kafka生产者在发送数据到Kafka集群时，会利用Kafka的分区机制来组织消息。以下是详细过程：

元数据请求：Kafka生产者在初始化或定期检查更新时会从Kafka集群中的任意节点获取元数据信息，包括哪些服务器是活动的以及每个主题分区的领导者在哪里。
序列化与分区选择：在发送消息之前，生产者会将消息键和值序列化成字节数组。然后，生产者根据ProducerRecord对象指定的信息来决定消息应该发送到哪个分区。如果指定了分区，则消息会被发送到该分区；如果没有指定分区但提供了键，则会使用键的哈希值与分区数取余的方式来确定分区；如果只存在值而没有键和分区指定，Kafka内部会采用Sticky partition策略随机选择一个分区。
发送消息：Kafka生产者将创建的ProducerRecord对象包装好的消息发送给对应的分区领导者broker。这个过程是异步的，由一个独立线程负责管理批次并将它们发送到相应的broker上。
领导者负责：由于Kafka采用领导者复制机制，生产者只需将数据发送至分区的领导者副本，领导者副本负责处理消息的存储和复制到跟随者副本（follower）。

消费者

Kafka消费者的工作方式是通过向Kafka broker发送“fetch”请求来拉取(pull)数据，不是推送(push)模式。以下是Kafka消费者的工作机制和特点：

拉取数据：消费者主动从broker拉取数据，即采用pull模式。这种方式允许消费者以自己的速度处理数据，避免了因为broker推送消息过快而导致消费者处理不过来的问题。
指定偏移量：在拉取数据时，消费者可以在请求中指定从哪个偏移量开始消费日志。这给了消费者很大的灵活性，它可以选择从当前偏移量开始消费，也可以选择从之前的某个偏移量开始重新消费数据。
分区分配策略：Kafka中的数据被分成多个分区，消费者可以消费多个分区的数据，但每个分区的数据只能被消费者组中的一个消费者消费。Kafka提供了不同的分区分配策略，如Range分配策略、RoundRobin分配策略和Sticky分配策略等。
消费者组：当一个主题的数据量很大时，可以通过消费者组来实现横向扩展。消费者组中的每个消费者可以消费不同分区的数据，从而实现负载均衡。在同一个消费者组中，每个分区只能被一个消费者消费，以避免重复处理数据。
位移提交和存储：消费者在消费数据时会维护一个偏移量（offset），表示它在分区中消费到了哪个位置。这个偏移量需要定期提交给Kafka，以便在服务重启或故障恢复时能够从准确的位置继续消费。
再均衡机制：当消费者组中的消费者数量发生变化时，Kafka会自动进行分区的重新分配，这个过程称为再均衡（rebalance）。再均衡确保了每个分区都有消费者负责，且每个消费者都能公平地分担负载。
拦截器和反序列化：Kafka消费者提供了拦截器（Interceptor）机制，允许开发者在数据处理过程中插入自定义逻辑。此外，消费者还需要对从Kafka接收到的消息进行反序列化，将其转换为应用程序可以理解的数据格式。
消费进度监控：为了确保数据处理的稳定性和可靠性，监控系统通常会跟踪消费者的消费进度，包括当前的偏移量、消费速率等信息。

主题（Topic）与分区（Partition）

，Kafka 通过主题（Topic）来组织消息，每个主题可以看作是一个独立的消息队列。为了提高系统的可伸缩性和性能，Kafka 采用了分区（Partition）机制。

在 Kafka 中，每个主题被分割成多个分区。

这些分区有以下特点和优势：

并行处理：分区允许 Kafka 主题并行地处理数据。不同的分区可以在不同的服务器（Broker）上进行处理，这意味着一个主题可以扩展到多个服务器以容纳更多的数据或处理更高的吞吐量。
分区复制：为了保证高可用性，每个分区可以有多个副本。在这些副本中，会选出一个作为领导者（Leader），而其他的则是跟随者（Follower）。领导者负责处理所有的读写请求，跟随者则同步领导者的数据。如果领导者发生故障，跟随者中的一个会被提升为新的领导者。
负载均衡：分区还允许 Kafka 进行负载均衡。生产者可以将消息均匀地发送到不同的分区，消费者组内的每个消费者可以消费不同分区的数据，从而实现负载的分散。
有序性保证：虽然分区允许并行处理，但在单个分区内，消息是按照它们进入的顺序存储的。这意味着对于单个消费者来说，即使在并行消费的情况下，从单个分区中读取的消息也是有序的。
灵活的消费者偏移量管理：消费者组中的每个消费者维护着自己的偏移量（Offset），这个偏移量标记了它已经消费到了分区中的哪个位置。这使得消费者可以在服务重启或故障恢复时从准确的位置继续消费，而不是从头开始。
扩展性：随着系统需求的增长，可以通过增加服务器数量和合理配置分区数量来水平扩展 Kafka 集群。

Broker 和集群（Cluster）

一个 Kafka Broker 能够处理成千上万的分区和百万量级的消息。

Kafka 的设计允许单个 Broker 具有高效的数据处理能力，这得益于以下几个方面：

顺序磁盘I/O：Kafka 在写消息数据时，会为每个分区创建一个文件，并将数据顺序地追加到该文件对应的磁盘空间中。这种顺序写入的方式充分利用了磁盘的顺序访问性能，相比随机访问要高效得多。
分区和并行处理：Kafka 通过将主题分为多个分区，并在不同的 Broker 上分布这些分区，实现了应用级别的水平扩展。这样，不同的分区可以并行地在不同的 Broker 上进行处理，从而提高了整体的处理能力。
高效的网络通信模型：Kafka 设计了一个高效的网络通信模型来处理它与生产者（Producer）和消费者（Consumer）之间的消息传递问题。这个模型对于保持高性能至关重要。
监控和度量指标：为了确保 Broker 的性能和稳定性，Kafka 提供了一系列的服务端度量指标，用于监控 Broker 的状态。这些指标包括 Kafka 本身的指标和主机层面的指标，有助于及时发现并解决可能出现的问题。
集群的扩缩容能力：Kafka 集群可以通过增删 Broker 来简单地实现整个集群的扩缩容，这使得根据实际需求调整系统性能成为可能。

动手搭建kafka

1.下载压缩包

下载并解压，下载地址

$ tar -xzf kafka_2.13-3.6.1.tgz
$ cd kafka_2.13-3.6.1

2.启动kafka

注意：您的本地环境必须安装 Java 8+。
Apache Kafka 可以使用 ZooKeeper 或 KRaft 启动。要开始使用任一配置，请遵循以下部分之一，但不能同时执行两者。

使用 ZooKeeper 的 Kafka

1. 配置 zookeeper地址

修改config/server.properties文件，修改如下配置：

zookeeper.connect=127.0.0.1:2181

2.添加对外暴漏ip

修改config/server.properties文件，添加以下配置：

# 允许外部端口连接                                            
listeners=PLAINTEXT://0.0.0.0:9092  
# 外部代理地址                                                
advertised.listeners=PLAINTEXT://[本机ip]:9092

运行以下命令启动kafka

$ bin/kafka-server-start.sh config/server.properties

使用 KRaft 的 Kafka

生成集群 UUID

$ KAFKA_CLUSTER_ID="$(bin/kafka-storage.sh random-uuid)"

设置日志目录的格式

$ bin/kafka-storage.sh format -t $KAFKA_CLUSTER_ID -c config/kraft/server.properties

启动 Kafka 服务器

$ bin/kafka-server-start.sh config/kraft/server.properties

【kubernetes】二进制部署k8s集群之，多master节点负载均衡以及高可用（下）

解锁网络世界的大门：探索Gateway网关的奇妙之旅（二）

linux中的权限

如何使用Douglas-042为威胁搜索和事件应急响应提速

【Linux从青铜到王者】基础IO

绕过5秒盾Cloudflare和DDoS-GUARD

vue3组件间的通信，通过props，emit，provide和inject把数据传递N个层级，expose和ref实现父组件调用子组件方法

【Elasticsearch专栏 01】深入探索：Elasticsearch的正向索引和倒排索引是什么

一种新型的AlGaN/GaN HEMTs小信号建模与参数提取方法

谷歌连发 Gemini1.5、Gemma两种大模型，Groq让模型输出速度快18倍

8-pytorch-损失函数与反向传播

Qt读写局域网共享文件夹

nodejs：nvm（nodejs版本管理切换工具）

[SpringDataMongodb开发游戏服务器实战]

Camunda7.18流程引擎启动出现Table ‘camunda_platform_docker.ACT_GE_PROPERTY‘的解决方案

[js高手之路]搞清楚面向对象,必须要理解对象在创建过程中的内存表示

【162天】黑马程序员27天视频学习笔记【Day02-上】

2017-08-04 前端日报

echarts的各种常用效果展示

ES学习笔记(12)--Symbol

Git初体验

Git学习与使用心得（1）—— 初始化

Java-详解HashMap

markdown编辑器简评

node和express搭建代理服务器（源码）

Sass 快速入门教程

Three.js 再探 - 写一个跳一跳极简版游戏

weex踩坑之旅第一弹 ~ 搭建具有入口文件的weex脚手架

构建二叉树进行数值数组的去重及优化

关于使用markdown的方法（引自CSDN教程）

讲清楚之javascript作用域

一个项目push到多个远程Git仓库

LeetCode解法汇总2808. 使循环数组所有元素相等的最少秒数

#define MODIFY_REG(REG, CLEARMASK, SETMASK)

#Js篇：单线程模式同步任务异步任务任务队列事件循环setTimeout() setInterval()

#LLM入门|Prompt#1.8_聊天机器人_Chatbot

#我与Java虚拟机的故事#连载10：如何在阿里、腾讯、百度、及字节跳动等公司面试中脱颖而出...

(16)UiBot：智能化软件机器人（以头歌抓取课程数据为例）

（BFS）hdoj2377-Bus Pass

(C++)八皇后问题

（C语言）二分查找超详细

（带教程）商业版SEO关键词按天计费系统：关键词排名优化、代理服务、手机自适应及搭建教程

（附源码）ssm基于web技术的医务志愿者管理系统毕业设计 100910

(附源码)计算机毕业设计ssm-Java网名推荐系统

(欧拉)openEuler系统添加网卡文件配置流程、(欧拉)openEuler系统手动配置ipv6地址流程、(欧拉)openEuler系统网络管理说明

(五) 一起学 Unix 环境高级编程 (APUE) 之进程环境

（学习日记）2024.04.04：UCOSIII第三十二节：计数信号量实验

（一）WLAN定义和基本架构转

（转）nsfocus-绿盟科技笔试题目

(转载)微软数据挖掘算法:Microsoft 时序算法(5)

***微信公众号支付+微信H5支付+微信扫码支付+小程序支付+APP微信支付解决方案总结...

.apk 成为历史！

.form文件_一篇文章学会文件上传

.NET 设计模式—简单工厂（Simple Factory Pattern）

.net程序集学习心得

介绍