首页 > 其他 > 详细

IK分词器和ElasticSearch集成使用

时间:2020-03-01 21:47:58      阅读:71      评论:0      收藏:0      [点我收藏+]

标椎分词器效果测试

  1.请求的url(请求方式是GET)

http://localhost:9200/_analyze?analyzer=standard&pretty=true&text=我是程序员

  2.实现效果

    技术分享图片

    这样的分词效果不是我们所需要的;

IK分词器简介

  IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,从2006年12推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Lucene为应用主体的,结合词典和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向java的公共分词组件,独立于Lucene项目,同时提供了Lucene的默认优化实现;

  特性如下:

    1.采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力;

    2.采用了多子处理分析模式,支持:英文字母,数字,中文词汇等分词处理;

    3.对中英联合支持不是很好,在这方面的处理比较麻烦,需在做一次查询,同时是支持个人词汇的优化的词典存储,更小的内存占用;

    4.支持用户词典扩展定义;

    5.针对Lucene全文检索优化的查询分析器IKQueryParser,采用了歧义分析算法优化查询关键字的搜索排列组合,能极大提高Lucene检索的命中率;

Elasticsearch继承IK分词器

  IK分词器的安装

    1.下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases

      技术分享图片

    2.解压后,将elasticsearch文件夹拷贝到elasticsearch-5.6.8\plugins目录下,并重命名文件夹文analysis-ik;

      技术分享图片

     3.重新启动elasticsearch服务,即可加载IK分词器

      技术分享图片

  IK分词器测试

    IK提供了两个分词算法:ik_smart和ik_max_word

    其中ik_smart为最少切分,ik_max_word为最细粒度划分;

    1.最少切分(ik_smart)

      1.1 请求的url (请求方式为GET)

http://127.0.0.1:9200/_analyze?analyzer=ik_smart&pretty=true&text=我是程序员

      1.2 实现效果

        技术分享图片

    2.最细粒度划分(ik_max_word)

      2.1 请求的url  (请求方式为GET)

http://127.0.0.1:9200/_analyze?analyzer=ik_max_word&pretty=true&text=我是程序员

      2.2 效果实现

        技术分享图片

创建索引映射mapping

  1.创建索引

    1.1 请求的url  (请求方式PUT)

http://localhost:9200/wn_1

    1.2 请求体

技术分享图片
{ 
    "mappings": { 
        "article": { 
            "properties": { 
                "id": { 
                    "type": "long", 
                    "store": true, 
                    "index":"not_analyzed" 
                },
                "title": { 
                    "type": "text", 
                    "store": true, 
                    "index":"analyzed", 
                    "analyzer":"ik_max_word" 
                },
                "content": { 
                    "type": "text", 
                    "store": true, 
                    "index":"analyzed", 
                    "analyzer":"ik_max_word" 
                } 
            } 
        } 
    } 
}
技术分享图片

    1.3 效果实现

      技术分享图片

  2.创建文档

    2.1 请求的url  (请求方式为POST)

http://localhost:9200/wn_1/article/1

    2.2 请求体

{ 
    "id":1, 
    "title":"ElasticSearch是一个基于Lucene的搜索服务器", 
    "content":"它提供了一个分布式多用户能力的全文搜索引擎,基于RESTfulweb接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。" 
}

    2.3 实现效果

      技术分享图片

  3.再次测试queryString查询

    3.1 请求的url  (请求方式为POST)

http://localhost:9200/wn_1/article/_search

    3.2 请求体

技术分享图片
{
    "query": {
        "query_string": {
            "default_field":"title",
            "query": "搜索"
        }
    }
}
技术分享图片

    3.3 效果实现

      技术分享图片

  4.再次测试term查询

    4.1 请求的url(请求方式为post)

http://localhost:9200/wn_1/article/_search

    4.2 请求体

技术分享图片
{
    "query": {
        "term": {
            "title": "服务器"
        }
    }
}
技术分享图片

    4.3 效果实现

      技术分享图片

IK分词器和ElasticSearch集成使用

原文:https://www.cnblogs.com/mayuan01/p/12391942.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!