首页 > 其他 > 详细

Elasticsearch IK分词器

时间:2021-08-18 15:33:55      阅读:19      评论:0      收藏:0      [点我收藏+]

Elasticsearch-IK分词器

一、简介

因为Elasticsearch中默认的标准分词器(analyze)对中文分词不是很友好,会将中文词语拆分成一个一个中文的汉字,所以引入中文分词器-IK。

使用默认

技术分享图片

二、安装IK分词器

1.先下载ik分词器

https://github.com/medcl/elasticsearch-analysis-ik/releases

注意 一定要下载和Elastic版本相同的IK分词器

2.我们将ik分词器上传到我们的es的plugins/ik目录下,ik文件夹需要我们自己创建

cd /usr/local/elasticsearch/plugins/ik/
unzip elasticsearch-analysis-ik-XX.zip 

# windos下安装也是一样的操作

3.重启

重启的时候在日志中就可以看到关于IK分词器已经被加载进去了

技术分享图片

三、测试分词器

1.ik_smart

会做最粗粒度的拆分,比如会将“我是中国人”拆分为我、是、中国人。

POST _analyze
{
  "analyzer": "ik_smart", 
  "text": "我是中国人"
}
技术分享图片

2.ik_max_word

会将文本做最细粒度的拆分,比如会将“我是中国人”拆分为“我、是、中华、中国人、中国、国人

POST _analyze
{
  "analyzer": "ik_max_word", 
  "text": "我是中国人"
}
技术分享图片

四、自定义词库

使用场景

在利用ik分词的过程中,当ik的分词规则不满足我们的需求了,这个时候就可以利用ik的自定义词库进行匹配,比如最火的常用的网络用语;我们输入乔碧罗殿下正常的情况下,是不会识别整个词语的,返回的都是分开的。我们识别整个词语就需要自定义词库

1、自定义词库方式一(新建dic文件)

(1)到elasticsearch/plugins中寻找ik插件所在的目录

(2)在ik中的config文件中添加词库

创建目录    mkdir ciku
创建文件    vim test.dic
#编辑test.dic 注意每个词语一行

(3)修改ik配置

vim /**/elasticsearch/plugins/ik/config/IKAnalyzer.cfg.xml
技术分享图片

(4)重启ElasticSearch

2、通过Nginx配置自定义词库

(1)安装好nginx,到nginx的html目录下创建分词文件

vim fenci.txt
#每个词语一行

(2)修改ik配置

vim /**/elasticsearch/plugins/ik/config/IKAnalyzer.cfg.xml
技术分享图片

(3)重启ElasticSearch

效果

我们输入乔碧罗殿下正常的情况下,是不会识别整个词语的,返回的都是分开的。当我们在词库文件中写上乔碧罗殿下就会返回下面的效果

技术分享图片

Elasticsearch IK分词器

原文:https://www.cnblogs.com/dupengpeng/p/15155674.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!