首页 > Web开发 > 详细

基于webmagic的爬虫小应用

时间:2017-03-13 12:55:53      阅读:199      评论:0      收藏:0      [点我收藏+]

以前没有写过爬虫程序,最近两天就研究了一下java的爬虫框架webmagic。然后写了一个demo

 

写爬虫的基本思想:

1.抓取目标连接

2.根据页面中标签,抓捕你需要的内容

3.保存结果集

 

以下是实现demo:

package ming;

import java.util.List;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

public class TianyaPageProcessor implements PageProcessor{

     //抓取网站的相关配置,包括:编码、抓取间隔、重试次数等
    private Site site = Site.me().setRetryTimes(10).setSleepTime(1000);
    
    public static final String URL_LIST = "http://bbs\\.tianya\\.cn/post-free-5683314-1\\.shtml";
    
    public void process(Page page) {
         if(page.getUrl().regex(URL_LIST).match()){
                List<String> names = page.getHtml().xpath("//div[@class=‘links‘]/a/text()").all();
                for(String name : names){
                    System.out.println(name);
                }
          }
        
    }

    public Site getSite() {
        
        return site;
    }

    public static void main(String[] args) {
          Spider.create(new TianyaPageProcessor()).addUrl("http://bbs.tianya.cn/post-free-5683314-1.shtml")
          .run();
    }
}

 

结果集为:

 INFO - Spider bbs.tianya.cn started!
 INFO - downloading page http://bbs.tianya.cn/post-free-5683314-1.shtml
民生
娱乐
人文
舆情
股票
汽车
时尚
情感
旅游
星工场
韩国
海南
三亚
重庆
广东
深圳
湖南
广西
福建
贵州
山东
陕西
理财
农场
游戏
品牌
众筹
get page: http://bbs.tianya.cn/post-free-5683314-1.shtml

 

参考:https://github.com/code4craft/webmagic

框架文档:http://webmagic.io/docs/zh/posts/ch1-overview/thinking.html

 

基于webmagic的爬虫小应用

原文:http://www.cnblogs.com/huzi007/p/6541853.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!