分区的每个副本对应到一个Log对象,每个Log有划分为多个LogSegment,每个LogSegment包括一个日志文件和两个索引文件,其中两个索引文件分别是偏移量索引文件和时间戳索引文件。Log和LogSegment是逻辑概念,日志文件和索引文件才是物理存储对象,下图为主题BBB三个分区的日志文件目录,每个分区对应一个目录。
下图为BBB主题0分区的日志文件(.log)和偏移量文件(.index)以及时间戳文件(.timeindex)。日志文件默认单个日志文件大小为1GB,可以通过修改配置文件来指定大小。Kafka提供日志切割机制,要么达到日志文件大小,如果没有达到大小阈值,但是达到了log.roll.ms或者log.roll.hours设置的值也会进行切割创建新的日志文件。
数据文件名称是一堆0,其实这就是数据文件的命名规则,它是由第一条消息的偏移量值然后左补0构成20位长度来形成的。
Kafka会把每个日志段的基准偏移量保存到ConcurrentSkipListMap集合中,通过二分法可以快速定位到消息所在的数据文件和索引文件,然后在索引文件中通过二分法,查找最小值等于指定偏移量的最大偏移量,最后从查找的最大偏移量出开始扫描数据文件,直到查询到偏移量与指定偏移量相等的消息。
日志目录中的锁文件
同一时刻只能由一个日志管理器实例或者线程来获取该锁文件,该文件只有在Kafka正常关闭后才会被删除,通过该文件可以判断Kafka上次是否正常关闭。
原文:http://blog.51cto.com/littledevil/2143366