首页 > Web开发 > 详细

Heritrix1.14.4 Web后台使用简介

时间:2015-08-21 02:05:31      阅读:268      评论:0      收藏:0      [点我收藏+]

? ? ? ??启动Heritrix后,访问http://localhost:6789就可以打开Heritrix的登录界面,登录后即进入了Heritrix Web后台的主页:
bubuko.com,布布扣
?console: Heritrix的控制台,会显示Heritrix的抓取任务和分配给HeritrixHeap使用情况

???JobsHeritrix的抓取任务界面,比如创建抓取任务,已挂起的任务,已完成的任务统计

? ?Profiles:Heritrix抓取任务相关的配置

? ?Logs:Heritrix的运行日志

? ?Reports:Heritrix的统计报表

? ?Setup:Heritrix实例管理界面以及Heritrix后台登录帐号密码修改

? ?Help:Heritrix的使用帮助文档

?

?首先我们需要切到Jobs界面,创建一个Job,如图:
bubuko.com,布布扣
?

??根据一个已经存在的job创建抓取任务

2.? ?根据一个抓取任务备份来创建抓取任务

3.? ?根据配置创建抓取任务

4.? ?按照默认方式创建抓取任务

asd ??

? ? 一般我们选择第3种创建方式:
bubuko.com,布布扣
?
bubuko.com,布布扣
?
bubuko.com,布布扣
?
bubuko.com,布布扣
?
关于Settings里相关配置项的含义解释说明请看下面这张图:
bubuko.com,布布扣
?
修改好后提交创建job,然后就能切到Console界面点击Start来启动抓取任务进行页面抓取
bubuko.com,布布扣
?
bubuko.com,布布扣
?
抓取到的网页默认保存在heritrix_hone\jobs目录下,我们创建的每个job都会在jobs目录下生成一个文件夹,命名方式为job名称+当前时间戳的方式,如图:
bubuko.com,布布扣
?
虽然Heritrixweb后台是全英文的,但我觉得没什么使用难度,你们多点点它的功能,从宏观上多感受下Heritrix的强大之处。最后是多阅读下Help界面里列出的一些帮助文档,这是你学习Heritrix最宝贵的资料:
bubuko.com,布布扣
?

? 益达的GitHub地址请猛戳我,用力,吃点劲儿!!!

益达的新浪微博:看这里,看这里

益达的技术交流社区:码农们,I want you!!!

?

? ?益达Q-Q: ? ? ? ? ? ? ? ?7-3-6-0-3-1-3-0-5

?

?

? ?益达的Q-Q群: ? ? ?1-0-5-0-9-8-8-0-6

?

?

?

?

?

?

?

?

?

?

?

?

?

?

Heritrix1.14.4 Web后台使用简介

原文:http://iamyida.iteye.com/blog/2236804

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!