首页 > 编程语言 > 详细

java开源爬虫gecco 发布1.0.8版本

时间:2016-03-31 02:24:06      阅读:376      评论:0      收藏:0      [点我收藏+]

gecco 1.0.8?发布了。

1.0.8版本主要做了如下修改:

  1. GeccoEngine增加loop方法,支持不循环抓取。gecco默认将改为采用不循环抓取
    2.支持移动端的UserAgent,通过GeccoEngine.mobile(true)设置
    3.支持配置初始化地址,自动扫描classpath根目录下的starts.json文件
    4.HttpResponse增加释放raw的方法
    5.GeccoEngine增加close方法,爬取结束后可以释放downloader下载资源

gecco是一款易用的轻量化网络爬虫。十分的容易上手。

主要特征:

  1. 简单易用,使用jquery风格的选择器抽取元素
    2.支持页面中的异步ajax请求
    3.支持页面中的javascript变量抽取
    4.利用Redis实现分布式抓取,参考gecco-redis
    5.支持结合Spring开发业务逻辑,参考gecco-spring
    6.支持htmlunit扩展,参考gecco-htmlunit
    7.支持插件扩展机制
    8.支持下载时UserAgent随机选取
    9.支持下载代理服务器随机选取

java开源爬虫gecco 发布1.0.8版本

原文:http://xtuhcy.iteye.com/blog/2287401

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!