nodeJS实现简易爬虫

时间：2019-08-28 18:28:57 阅读：81 评论：0 收藏：0 [点我收藏+]

nodeJS实现简易爬虫

需求：使用nodeJS爬取昵图网某个分类下的图片并存入本地

运用nodeJS自带系统模块http、fs

示例代码:

var http =require('http');
var fs =require('fs');

var curentPage=1; //当前图片页数
var maxcurentPage=5;//最大页数
//获取图片地址
function getData(){
    let url = 'http://www.nipic.com/photo/xiandai/jiaotong/index.html?page='+curentPage
    http.get(url,(res)=>{
        var data = '';
        res.on('data',(a)=>{
            data+=a.toString();
        })
        res.on('end',()=>{
            let reg = /<img src="(.+?)" data-src="(.*?)"  alt="(.*?)" \/>/g
            let arr=[];
            while (reg.exec(data)){
                arr.push(reg.exec(data)[2]);
            }
            for(i in arr){
                (function(i){
                    setTimeout(()=>{
                        getImg(arr[i])
                    },500*i)
                })(i)
            }
            if (curentPage < maxcurentPage){
                curentPage++;
                arguments.callee();
            }
        })
    })
}
//图片写入img文件夹
function getImg(url){
    let u = url.replace(/\/pic\//,'/file/')
        .replace(/_4.jpg/,'_2.jpg');
    http.get(u,(res)=>{
        let name = new Date().getTime();
        let stream = fs.createWriteStream('./img/' + name + '.png');
        res.pipe(stream);
    })
}
getData();

nodeJS实现简易爬虫

原文：https://www.cnblogs.com/sgs123/p/11425008.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

nodeJS实现简易爬虫

nodeJS实现简易爬虫

需求：使用nodeJS爬取昵图网某个分类下的图片并存入本地

示例代码: