kafka 不同分区文件存储_消息系统Kafka笔试题:Kafka 底层的文件存储结构
分区目录文件, Partition 命名规则为:【topic 名称】+【从 0 开始的有序序号】drwxr-x% 2 root root 4096 Jul 26 19:35 kafka-topic-01-0drwxr-x% 2 root root 4096 Jul 24 20:15 kafka-topic-01-1drwxr-x% 2 root root 4096 Jul 24 20:15 kafka-topic-01-2 # 分区目录中的日志数据文件和日志索引文件-rw-r-----1rootroot512KJul2419:5100000000000000000000.index-rw-r-----1rootroot1.0GJul2419:5100000000000000000000.log-rw-r-----1rootroot768KJul2419:5100000000000000000000.timeindex-rw-r-----1rootroot512KJul2420:0300000000000022372103.index-rw-r-----1rootroot1.0GJul2420:0300000000000022372103.log-rw-r-----1rootroot768KJul2420:0300000000000022372103.timeindex-rw-r-----1rootroot512KJul2420:1500000000000044744987.index-rw-r-----1rootroot1.0GJul2420:1500000000000044744987.log-rw-r-----1rootroot767KJul2420:1500000000000044744987.timeindex-rw-r-----1rootroot10MJul2420:2100000000000067117761.index-rw-r-----1rootroot511MJul2420:2100000000000067117761.log-rw-r-----1rootroot10MJul2420:2100000000000067117761.timeindex
在Kafka中,每个Log对象又可以划分为多个LogSegment文件,每个LogSegment文件包括一个日志数据文件和两个索引文件,文件命名规则为上一个Segment 文件最后一条消息的Offset 值。如下图所示
如何根据Offset来查找一条消息: 根据指定的偏移量,使用二分法查询定位出该偏移量对应的消息所在的分段索引文件和日志数据文件。然后通过二分查找法,继续查找出小于等于指定偏移量的最大偏移量,同时也得出了对应的Position(实际物理位置),根据该物理位置在分段的日志数据文件中顺序扫 描查找偏移量与指定偏移量相等的消息。下面是Kafka中分段的日志数据文件和偏移量索引文件的对应 映射关系图(其中也说明了如何按照起始偏移量来定位到日志数据文件中的具体消息)