首页 > Web开发 > 详细

nutch2.3抓取的网页使用solr建立索引

时间:2015-10-31 06:56:36      阅读:625      评论:0      收藏:0      [点我收藏+]

1,安装solr

2,将NUTCH_HOME/runtime/local/conf/schema-solr4.xml复制到SOLR_HOME/excample/solr/collection1/conf/下,并改名为schema.xml,在文件中添加<field name="_version_" type="long" indexed="true" stored="true"/>

3,启动hbase

如果是hbase 0.94.*的版本需要修改host

官方是这么说的:

The following /etc/hosts file works correctly for HBase 0.94.x and earlier, on Ubuntu. Use this as a template if you run into trouble.

127.0.0.1 localhost
127.0.0.1 ubuntu.ubuntu-domain ubuntu


关键是下面这条命令,就会在solr中建立索引

bin/nutch solrindex http://127.0.0.1:8983/solr/ -reindex -crawlId 6vhao

nutch2.3抓取的网页使用solr建立索引

原文:http://my.oschina.net/u/2494265/blog/524238

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!