首页 > 其他 > 详细

coreseek/sphinx自定义词库

时间:2015-02-03 19:44:04      阅读:415      评论:0      收藏:0      [点我收藏+]

1、在一些专业领域中,全文搜索需要定义专业的名词,这里以化学为例来说明自定义词库


国内只有搜狗提供公开词库

网址是:http://pinyin.sogou.com/dict/


有些可以直接下载TXT的,有些则需要自己处理成txt文件,如果能下载txt的则只需要更改一下就可以,如果不能下载,则用其他软件或者自己手写一个,我用的是深蓝提供的词库转换工具


假设以上步骤已经完成,txt文件已经生成,则只需要下面的步骤就可以生成词库

mmseg词库的格式是

中文词 \t 1

x:1

由于生成的txt文件的格式是

富马酸单乙酯

乙酰氧基乙酸

羧基二苯甲酮

邻苄基苯甲腈

溴磺酸基联苯

氯二苯氯甲烷

氯甲基甲基萘

乙二酸二苄酯

甲基二苯甲醇

二溴氰乙酰胺

羟乙基二苯酮

三吗啉基氧磷

邻甲苯基双胍

硝基甲基吡啶

二乙氧基苯胺

氯甲氧基苯胺

氨苄青霉素钠

.....


所以需要事先处理一下

linux下执行以下命令

#sed -i "s/$/\t1\nx:1/g" file.txt


以上就是处理词库文件

下面来生成词库

#cd /usr/local/mmseg3/etc

#/usr/local/mmseg3/bin/mmseg -u file.txt

#mv uni.lib uni.lib.old

#mv file.txt.uni uni.lib


通过以上步骤就完成了mmseg自定义词库

接下来就是创建sphinx索引


这些不常用的技术由于用的次数比较少,所以记录一下,一遍以后用到

本文出自 “Jeff” 博客,转载请与作者联系!

coreseek/sphinx自定义词库

原文:http://zhangxz.blog.51cto.com/5490116/1611176

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!