首页 > Web开发 > 详细

Lucene

时间:2020-11-15 11:07:28      阅读:19      评论:0      收藏:0      [点我收藏+]
一、分词器的核心类
1.Analyzer分词器
    SimpleAnalyzer、StopAnalyzer、WhitespaceAnalyser、StandardAnalyser
2.TokenStream
    分词器做好处理之后得到的一个流,这个流中存储了分词的各种信息,可以通过TokenStream有效的获取到分词单元。
3.Tokenizer
    主要负责接收Reader字符流,将Reader进行分词操作,有如下一些实现类。
    
技术分享图片
4.TokenFilter
    将分词的语汇单元,进行各种各样的过滤
技术分享图片


生成的流程
技术分享图片


在这个流中,存储的数据有这些东西:
    
技术分享图片

二、Attribute类
    
//前三个很重要!
PositionIncrementAttribute pia = stream.addAttribute(PositionIncrementAttribute.class);
//位置增量的属性,存储语汇单元之间的距离(可做同义词)

OffsetAttribute oa = stream.addAttribute(OffsetAttribute.class);
//每个语汇单元的位置偏移量

CharTermAttribute cta = stream.addAttribute(CharTermAttribute.class);
//存储每一个分词的单元信息

TypeAttribute ta = stream.addAttribute(TypeAttribute.class);
//分词器的类型信息
三、自定义分词器

Lucene

原文:https://www.cnblogs.com/nuistjungu/p/13975808.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!