首页 > Web开发 > 详细

Lucene笔记系列(3)——Lucene的文件结构

时间:2015-08-19 17:51:46      阅读:237      评论:0      收藏:0      [点我收藏+]

Lucene的文件结构是一个层次结构。

Lucene文件层次结构包含:

技术分享

如果非要打一个比方:

这里的索引相当于数据库中的表,当表中的记录达到一定的量之后,我们要对表进行分区操作。

这里的段就相当于表的分区。

也就是说,索引可以分解成多个段。

数据表中的记录又保存不同的分区中内,这里的文档就相当于数据库表中的记录。不同的文档保存在不同的段中。

与表的分区略有不同的是,这里的段可以合并成一个新段。

一个索引包含多个段,每个段包含一个或多个文档,文档中包含多个域,域可以进行分词划分成一个或多个词元。


Lucene索引中保存了正向信息和反向信息。

正向信息:按层次保存了索引到词的包含关系。

索引-段-文档-域-词

一个索引包含哪些段,每个段包含哪些文档,文档中包含哪些域,域划分成哪些词元。


反向信息:词到文档的映射关系。

在本系列前面的文章(1)中,我们将这种从词到文档的映射关系,定义为倒排表。通过倒排表,我们可以看到每一个词分别在哪些文档中出现。


技术分享






Lucene笔记系列(3)——Lucene的文件结构

原文:http://my.oschina.net/happyBKs/blog/494693

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!