http://localhost:9200/_analyze?analyzer=standard&pretty=true&text=我是程序员
这样的分词效果不是我们所需要的;
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,从2006年12推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Lucene为应用主体的,结合词典和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向java的公共分词组件,独立于Lucene项目,同时提供了Lucene的默认优化实现;
特性如下:
1.采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力;
2.采用了多子处理分析模式,支持:英文字母,数字,中文词汇等分词处理;
3.对中英联合支持不是很好,在这方面的处理比较麻烦,需在做一次查询,同时是支持个人词汇的优化的词典存储,更小的内存占用;
4.支持用户词典扩展定义;
5.针对Lucene全文检索优化的查询分析器IKQueryParser,采用了歧义分析算法优化查询关键字的搜索排列组合,能极大提高Lucene检索的命中率;
IK提供了两个分词算法:ik_smart和ik_max_word
其中ik_smart为最少切分,ik_max_word为最细粒度划分;
1.1 请求的url (请求方式为GET)
http://127.0.0.1:9200/_analyze?analyzer=ik_smart&pretty=true&text=我是程序员
1.2 实现效果
2.1 请求的url (请求方式为GET)
http://127.0.0.1:9200/_analyze?analyzer=ik_max_word&pretty=true&text=我是程序员
2.2 效果实现
http://localhost:9200/wn_1
{ "mappings": { "article": { "properties": { "id": { "type": "long", "store": true, "index":"not_analyzed" }, "title": { "type": "text", "store": true, "index":"analyzed", "analyzer":"ik_max_word" }, "content": { "type": "text", "store": true, "index":"analyzed", "analyzer":"ik_max_word" } } } } }
http://localhost:9200/wn_1/article/1
{ "id":1, "title":"ElasticSearch是一个基于Lucene的搜索服务器", "content":"它提供了一个分布式多用户能力的全文搜索引擎,基于RESTfulweb接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。" }
http://localhost:9200/wn_1/article/_search
{ "query": { "query_string": { "default_field":"title", "query": "搜索" } } }
http://localhost:9200/wn_1/article/_search
{ "query": { "term": { "title": "服务器" } } }
原文:https://www.cnblogs.com/mayuan01/p/12391942.html