Lucene

时间：2020-11-15 11:07:28 阅读：24 评论：0 收藏：0 [点我收藏+]

一、分词器的核心类

1.Analyzer分词器

SimpleAnalyzer、StopAnalyzer、WhitespaceAnalyser、StandardAnalyser

2.TokenStream

分词器做好处理之后得到的一个流，这个流中存储了分词的各种信息，可以通过TokenStream有效的获取到分词单元。

3.Tokenizer

主要负责接收Reader字符流，将Reader进行分词操作，有如下一些实现类。

4.TokenFilter

将分词的语汇单元，进行各种各样的过滤

生成的流程

在这个流中，存储的数据有这些东西：

二、Attribute类

//前三个很重要！
PositionIncrementAttribute pia = stream.addAttribute(PositionIncrementAttribute.class);
//位置增量的属性，存储语汇单元之间的距离（可做同义词）

OffsetAttribute oa = stream.addAttribute(OffsetAttribute.class);
//每个语汇单元的位置偏移量

CharTermAttribute cta = stream.addAttribute(CharTermAttribute.class);
//存储每一个分词的单元信息

TypeAttribute ta = stream.addAttribute(TypeAttribute.class);
//分词器的类型信息

三、自定义分词器

Lucene

原文：https://www.cnblogs.com/nuistjungu/p/13975808.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)