用node.js从零开始去写一个简单的爬虫(借鉴别人的，自己写了一遍，没毛病)

时间：2019-10-12 11:46:53 阅读：64 评论：0 收藏：0 [点我收藏+]

1. 下载nodejs
2.下载javaScript编辑器webStorm或者 vs (根据自己的习惯)

3. 在d盘新建一个文件夹WebSpider

4 .cmd右键以管理员模式打开(window+R键)，进入d盘，cd 进入刚刚创建的文件夹里面
cd WebSpider

5.mkdir FirstSpider （创建一个FirstSpider文件夹）

6.进入刚刚创建的文件夹里面 cd FirstSpider

7. npm init （初始化工程）

此时需要填写一些项目信息，你可以根据情况填写，当然也可以一路回车。（图片里面显示的文件夹名和盘不正确，仅供参考，主要看图片信息，一路回车即可）

技术分享图片

创建完项目后，会生成一个package.json的文件。该文件包含了项目的基本信息。

技术分享图片

8.安装第三方包（后面程序会直接调用包的模块）

************** 在cmd中，cd进入cd FirstSpider文件夹，然后执行命令： npm install cheerio

*************安装完cheerio包后，继续安装request包：npm install request

说明：这里安装cheerio包，和request包。request 用于发起http请求，cheerio 用于将下载下来的dom进行分析和提取你可以把它当做jQuery来用。

说明：由于http模块、fs模块都是内置的包，因此不需要额外添加。

9.如果想要将爬取的数据和图片分类放好，那就事先建立一个data和image文件夹准备着。（在FirstSpider文件夹下新建。）
技术分享图片

10.打开yzx_spider.js，ctrl+c” + “ctrl+v”

var http = require(‘http‘);
var fs = require(‘fs‘);
var cheerio = require(‘cheerio‘);
var request = require(‘request‘);
var i = 0;
var url = "http://www.ss.pku.edu.cn/index.php/newscenter/news/2391";
//初始url

function fetchPage(x) { //封装了一层函数
startRequest(x);
}

function startRequest(x) {
//采用http模块向服务器发起一次get请求
http.get(x, function (res) {
var html = ‘‘; //用来存储请求网页的整个html内容
var titles = [];
res.setEncoding(‘utf-8‘); //防止中文乱码
//监听data事件，每次取一块数据
res.on(‘data‘, function (chunk) {
html += chunk;
});
//监听end事件，如果整个网页内容的html都获取完毕，就执行回调函数
res.on(‘end‘, function () {

var $ = cheerio.load(html); //采用cheerio模块解析html

var time = $(‘.article-info a:first-child‘).next().text().trim();

var news_item = {
//获取文章的标题
title: $(‘div.article-title a‘).text().trim(),
//获取文章发布的时间
Time: time,
//获取当前文章的url
link: "http://www.ss.pku.edu.cn" + $("div.article-title a").attr(‘href‘),
//获取供稿单位
author: $(‘[title=供稿]‘).text().trim(),
//i是用来判断获取了多少篇文章
i: i = i + 1,

};

console.log(news_item); //打印新闻信息
var news_title = $(‘div.article-title a‘).text().trim();

savedContent($,news_title); //存储每篇文章的内容及文章标题

savedImg($,news_title); //存储每篇文章的图片及图片标题

//下一篇文章的url
var nextLink="http://www.ss.pku.edu.cn" + $("li.next a").attr(‘href‘);
str1 = nextLink.split(‘-‘); //去除掉url后面的中文
str = encodeURI(str1[0]);
//这是亮点之一，通过控制I,可以控制爬取多少篇文章.
if (i <= 500) {
fetchPage(str);
}

});

}).on(‘error‘, function (err) {
console.log(err);
});

}
//该函数的作用：在本地存储所爬取的新闻内容资源
function savedContent($, news_title) {
$(‘.article-content p‘).each(function (index, item) {
var x = $(this).text();

var y = x.substring(0, 2).trim();

if (y == ‘‘) {
x = x + ‘\n‘;
//将新闻文本内容一段一段添加到/data文件夹下，并用新闻的标题来命名文件
fs.appendFile(‘./data/‘ + news_title + ‘.txt‘, x, ‘utf-8‘, function (err) {
if (err) {
console.log(err);
}
});
}
})
}
//该函数的作用：在本地存储所爬取到的图片资源
function savedImg($,news_title) {
$(‘.article-content img‘).each(function (index, item) {
var img_title = $(this).parent().next().text().trim(); //获取图片的标题
if(img_title.length>35||img_title==""){
img_title="Null";}
var img_filename = img_title + ‘.jpg‘;

var img_src = ‘http://www.ss.pku.edu.cn‘ + $(this).attr(‘src‘); //获取图片的url

//采用request模块，向服务器发起一次请求，获取图片资源
request.head(img_src,function(err,res,body){
if(err){
console.log(err);
}
});
request(img_src).pipe(fs.createWriteStream(‘./image/‘+news_title + ‘---‘ + img_filename)); //通过流的方式，把图片写到本地/image目录下，并用新闻的标题和图片的标题作为图片的名称。
})
}
fetchPage(url); //主程序开始运行

11. cd 到你创建工程文件夹yzx_homework下，然后 node yzx_spider.js
技术分享图片

用node.js从零开始去写一个简单的爬虫(借鉴别人的，自己写了一遍，没毛病)

原文：https://www.cnblogs.com/hemei1212/p/11660463.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)