首页 > 编程语言 > 详细

word v1.3 发布,Java 分布式中文分词组件

时间:2015-08-30 02:06:23      阅读:240      评论:0      收藏:0      [点我收藏+]

word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词频统计、词性标注、同义标注、反义标注、拼音标注等功能。提供了10种分词算法,还提供了10种文本相似度算法,同时还无缝和Lucene、Solr、ElasticSearch、Luke集成。

word1.3新增了大量功能,如:词频统计、refine、词性标注、同义标注、反义标注、拼音标注等,同时,新增了10种文本相似度算法,还新增了两种分词算法:最大Ngram分值算法和最少词数算法,分词速度也有了很大提升,还有很多其他的大大小小的优化,最后还支持当前最新的lucene5.2.1、solr5.2.1和elasticsearch2.0.0-beta1。

?

更多细节请查看:word分词主页

word分词的分词效果怎么样?请看:Java开源项目cws_evaluation:中文分词器分词效果评估

?

?

?

word v1.3 发布,Java 分布式中文分词组件

原文:http://yangshangchuan.iteye.com/blog/2238846

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!