首页 > 其他 > 详细

coreseek 自定义词库(一)

时间:2014-04-24 08:56:57      阅读:545      评论:0      收藏:0      [点我收藏+]
中文搜索中,首先是了解了coreseek(lucene,你也可以看一下xunsearch,不过xunsearch快不支持修订了),coreseek自身带的词库不是很大,直接使用它分词可能会返回大量没用结果,所以需要自己定义分词库。

1.你可以到搜狗或者其它的输入法中获取到相应的词库,比如:使用
四十万汉语大词库,搜狗下载下来是 scel 格式

2.系在一个工具,将他转换成 txt 格式 ,并且一定要使用 utf8 编码。比如使用:深蓝词库转换

3.在linux中找到安装coreseek的时候安装的分词mmseg目录,将我们转换的txt格式的词典转换成mmseg支持的格式

比如:在命令行下运行    /usr/local/mmseg3/bin/mmseg -u test.txt   会生成:test.
txt.uni
然后将  
test.txt.uni 命名为  uni.lib  
再将 uni.lib 移动到
/usr/local/mmseg3/etc 目录下面
3.重新进行分词,即可



如果有什么错误,请与我交流联系:bieru52@aliyun.com
也可以博客给我留言



本文出自 “追梦” 博客,请务必保留此出处http://dreameng.blog.51cto.com/1187899/1401336

coreseek 自定义词库(一),布布扣,bubuko.com

coreseek 自定义词库(一)

原文:http://dreameng.blog.51cto.com/1187899/1401336

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!