首页 > 其他 > 详细

solr使用的一点记录

时间:2014-01-21 15:27:31      阅读:544      评论:0      收藏:0      [点我收藏+]

lucene版本3.1,solr版本3.0

对pubmed 3200多万篇,总计64G的医学文献摘要数据进行索引,索引了大约6个小时,索引之后发现还有18G,发现搜索是支持phrase query的,但是不需要高亮(因为文本数据不store在solr上而在cabinet上),text的定义中加上了termPositions=false,明天看看索引会不会小一点.

对八百多万篇中文医学文献34G,只索引了一半17G,花了22分钟,索引大小为2.3G,下载mmseg 1.8.5,使用textComplex方式进行分词,索引大小1.7G,使用时间大约25分钟,再使用textMaxWord方式分词,索引大小1.8G,使用时间25分钟,使用StopwordFilter之后索引减少到1.6G.

另外看到documentCache 使用lrucache,大小为512,hitRatio有0.5,把它改成了fastlrucache,大小设成1024,看看hitratio有没有增加.


solr使用的一点记录

原文:http://blog.csdn.net/jollyjumper/article/details/18194429

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!