当前位置: 首页 > news >正文

大数据面试专题 -- kafka

1、什么是消息队列?

是一个用于存放数据的组件,用于系统之间或者是模块之间的消息传递。

2、消息队列的应用场景?

主要是用于模块之间的解耦合、异步处理、日志处理、流量削峰

3、什么是kafka?

kafka是一种基于订阅发布模式的高性能,高吞吐的实时的消息队列,是一个分布式系统,高性能的TCP网络协议进行的。

4、消息队列的模式主要分成两种模式?

a、生产者、消费者模式

b、消息队列模式

5、kafka的组成:

kafaka主要是由生产者、消费者、broker、zookeeper组成

其中:

        生产者:生产数据

        消费者:消费数据

        broker:是kafka集群中服务器节点

        topic:一个topic是kafka集群中数据流中的列别,存储数据

        partition:一个topic可以分成多个分区。

        replica:副本,实现kafka集群的容错

        consumer group:消费者组,对于同一个消费者中的消费者可以消费同一个topic

        offset:偏移量,对于消费者和partition来说,可以通过offset进行拉取数据。

6、在kafka集群中,对于分区也分leader和follower(在分区的层面上讨论)

leader :只负责读写数据

follower:负责同步数据,选举作用。

7、幂等性:

所谓的幂等性就是无论生产者向broker中发送多少条数据,broker只会持久化一条数据

实现原理:

当生产者生产完数据就会发送到分区中进行保存,此时kafka就会向生产者发送ack信号,当生产者接受的ack响应表示数据保存,否则就会重新发送一条相同的数据。

8、副本的ack机制:

1、acks=0,生产者只负责写入数据,不管数据是否写入成功,数据可能会丢失,性能是最好的。

2、acks=1,生产者将数据写入到leader中,返回写入成功,就会继续发送下一条数据

3、acks=-1/all,生产者将数据写入到leader中,同时也会将数据写入到副本中,当所有的数据都写入成功后,就返回写入成功,才会发送下一条数据。

9、生产者写入分区的策略:

1、轮询负载策略:将数据循环写入分区中

2、基于hash的分区策略:根据hash的值进入不同的分区中

3、基于key写入分区:通过hash值与分区的个数继续取余,但是会导致数据倾斜。

4、消费者消费数分区分配策略:默认使用的是range分配。

10、leader选举:

在kafka集群中,controller是通过zk进行选举。在分区中的leader是通过ISR进行选举的。

11、kafka的读写流程:

kafka的读数据:

        1、通过zk找出partition对应的leader,leader负责读取数据。

        2、通过zk找出对应的消费者的offset

        3、leader从对应的offset开始读取数据

        4、提交offset

kafka的写数据

        1、通过zk找到对应的partition对应的leader,leader负责写入数据

        2、生产者向leader中写入数据

        3、ISR中的fllower负责同步数据,并返回ack给leader。

        4、返回ack给生产者。

12、kafka性能高的原因:

        1、kafka采用的是一个sendfile的零拷贝技术

        2、kafka是批量写入和读取的,一批批的写入数据,默认写入和读取的大小月约64kb左右。

        3、kafka写磁盘是顺序读取和写入的。

13、kafka中的文件删除策略:

        默认是7天作为一个周期,删除的是整个文件,系统默认是1G生成一个文件,可以在配置文件中修改:

server.properties
14、kafka中分区的目的:

实现分布式,一个topic的数据量非常大,只存在同一个分区中压力会比较大。

15、在Kafka中是如何保证数据不丢失:

        1、broker保证数据不丢失的原因是副本机制

        2、生产者保证数据不丢失的原因是acks机制

        3、消费者保证数据不丢失的原因是控制offset

16、zk在Kafka中作用:

        1、负责选举controller

        2、存储元数据信息

17、kafka的架构:

        主节点:controller

        从节点:borker

18、消费者和消费者组的关系:

1、消费者是负责订阅分区中的数据,然而对于消费者组来说是负责订阅topic的

2、一个消费者组中包含多个消费者,同一个消费者组中消费者可以订阅同一个topic

19、在Kafka中是如何保证数据的安全性

是通过kafka中的副本机制保证了数据的安全性。

20、怎么解决kafka数据量过大

1、可以增加topic的分区数,可以提高并行处理更多的数据

kafka-topics.sh --zookeeper localhost:2181 --alter --topic my-topic --partitions 10

2、增加副本因子,可以提高数据的冗余,提高数据的可靠性 

bin/kafka-topics.sh --zookeeper localhost:2181 --alter --topic my-topic --replication-factor 3

3、调整消费者的并行度

4、优化生产者配置:

batch.size:增加批处理提高吞吐量

5、配置清理策列:根据数据保留策略配置日志保留时间和日志大小,定期清理旧数据 

6、扩大kafka集群的规模:增加broker节点的数量

21、在Kafka中生产者是如何保证数据不丢失的

通过acks机制保证数据不丢失。

22、kafka中是如何保证数据不重复的

在kafka中使用幂等性来保证数据不重复的,在发送数据的时候,会给数据定义一个编号ID,当下次传输数据的时候ID+1,将数据写入的时候会记住这个编号,如果下一条数据的ID与上一个数据的ID一致,那么说明数据重复,不写入,返回ack。

23、消费者出问题,如何保证数据不丢失

kafka中使用commit offset 机制,会将消费的位置存储到comsumer-offset文件中。

24、什么是AR、ISR、OSR

AR:所有的副本

ISR:健康的副本

OSR:有问题的副本

相关文章:

  • 算法提高篇基础算法第一章 - 贪心算法
  • 乡村数字化转型:科技赋能打造智慧农村新生态
  • JAVA面试大全之数据库篇
  • 无论PC还是Mac,都能畅快地使用移动硬盘 Mac使用NTFS移动硬盘不能读写
  • Mistral 7B v0.2 基础模型开源,大模型微调实践来了
  • Linux网络配置(超详细)
  • 本地项目上传到GitHub
  • leetcode283-Move Zeroes
  • vue实现相机拍摄,可录视频、拍照片、前置后置切换(简单小demo)
  • Redis的Hash数据结构中100万对field和value,field是自增时如何优化?优化Hash结构。
  • Git 核心知识
  • idea从零开发Android 安卓 (超详细)
  • 算法系列--动态规划--特殊的状态表示--分析重复子问题
  • python opencv之提取轮廓并拟合圆
  • 智慧公厕,为智慧城市建设注入了新的活力
  • ES6指北【2】—— 箭头函数
  • 【剑指offer】让抽象问题具体化
  • 【跃迁之路】【733天】程序员高效学习方法论探索系列(实验阶段490-2019.2.23)...
  • Angular6错误 Service: No provider for Renderer2
  • ECMAScript6(0):ES6简明参考手册
  • ECMAScript入门(七)--Module语法
  • es6--symbol
  • Git同步原始仓库到Fork仓库中
  • JavaScript类型识别
  • JS+CSS实现数字滚动
  • JSDuck 与 AngularJS 融合技巧
  • js作用域和this的理解
  • LintCode 31. partitionArray 数组划分
  • Netty 框架总结「ChannelHandler 及 EventLoop」
  • PHP 程序员也能做的 Java 开发 30分钟使用 netty 轻松打造一个高性能 websocket 服务...
  • 阿里云爬虫风险管理产品商业化,为云端流量保驾护航
  • 从tcpdump抓包看TCP/IP协议
  • 警报:线上事故之CountDownLatch的威力
  • 前端技术周刊 2018-12-10:前端自动化测试
  • 实战:基于Spring Boot快速开发RESTful风格API接口
  • 新手搭建网站的主要流程
  • 职业生涯 一个六年开发经验的女程序员的心声。
  • 追踪解析 FutureTask 源码
  • 3月27日云栖精选夜读 | 从 “城市大脑”实践,瞭望未来城市源起 ...
  • 新年再起“裁员潮”,“钢铁侠”马斯克要一举裁掉SpaceX 600余名员工 ...
  • ​【已解决】npm install​卡主不动的情况
  • (2)(2.4) TerraRanger Tower/Tower EVO(360度)
  • (day 2)JavaScript学习笔记(基础之变量、常量和注释)
  • (附源码)apringboot计算机专业大学生就业指南 毕业设计061355
  • (附源码)springboot猪场管理系统 毕业设计 160901
  • (附源码)计算机毕业设计SSM智慧停车系统
  • (个人笔记质量不佳)SQL 左连接、右连接、内连接的区别
  • (三分钟了解debug)SLAM研究方向-Debug总结
  • (转载)CentOS查看系统信息|CentOS查看命令
  • .net core webapi 大文件上传到wwwroot文件夹
  • .NET Framework 的 bug?try-catch-when 中如果 when 语句抛出异常,程序将彻底崩溃
  • .NET MVC 验证码
  • .NET 命令行参数包含应用程序路径吗?
  • .Net 知识杂记
  • .netcore 获取appsettings