Lucene 4.9
基础准备
- 了解常用分词器,选择合适分词器
- 读取文件编码要正确,非TXT文档需要进行特殊处理或特殊工具读取后才进行分词处理
- TextField内容不能保存过长,最大长度是32766个字节
StringField, TextField 的区别,其他
- StringField 不进行分词处理,保存
- TextField 进行分词处理,默认不保存,可以选择保存,最大长度是 32766字节
- 其他省略…
Demo参考:
- org.apache.lucene.demo.IndexFiles
- org.apache.lucene.demo.SearchFiles
基本参考两个类基本够用
常见问题,调试技巧(查询不是想要结果)
- 查看索引文档的分词结果,编码和分词是否是否正确
- 查看关键字搜索的分词结果
- 读取文件内容编码处理必须正确,乱码索引不到想要结果
优化
- 优化索引内容,加快索引效率和查询效率,提高命中率
- 特殊文档特殊处理。 例如: html 需要过滤html标签和对标题、关键字、描述内容过的特殊处理,word文档需要用工具处理等。
未完待续,玩命的完善中.
Lucene 学习入门,布布扣,bubuko.com
Lucene 学习入门
原文:http://my.oschina.net/gofan/blog/290552