中文搜索中,首先是了解了coreseek(lucene,你也可以看一下xunsearch,不过xunsearch快不支持修订了),coreseek自身带的词库不是很大,直接使用它分词可能会返回大量没用结果,所以需要自己定义分词库。
1.你可以到搜狗或者其它的输入法中获取到相应的词库,比如:使用四十万汉语大词库,搜狗下载下来是 scel 格式
2.系在一个工具,将他转换成 txt 格式 ,并且一定要使用 utf8 编码。比如使用:深蓝词库转换
3.在linux中找到安装coreseek的时候安装的分词mmseg目录,将我们转换的txt格式的词典转换成mmseg支持的格式
比如:在命令行下运行 /usr/local/mmseg3/bin/mmseg -u test.txt 会生成:test.txt.uni
然后将 test.txt.uni 命名为 uni.lib
再将 uni.lib 移动到 /usr/local/mmseg3/etc 目录下面
3.重新进行分词,即可
如果有什么错误,请与我交流联系:bieru52@aliyun.com
也可以博客给我留言
本文出自 “追梦” 博客,请务必保留此出处http://dreameng.blog.51cto.com/1187899/1401336
coreseek 自定义词库(一),布布扣,bubuko.com
coreseek 自定义词库(一)
原文:http://dreameng.blog.51cto.com/1187899/1401336