首页 > 系统服务 > 详细

实现多进程爬虫的数据抓取

时间:2017-11-10 10:18:17      阅读:168      评论:0      收藏:0      [点我收藏+]

要实现多进程爬虫的数据抓取,要用到库multiprocessing并导入Pool:

from multiprocessing import Pool

接着导入进程池

pool = Pool(processes = 4)  #processes后接打开进程的数,与电脑核数有关,不加即自动分配。
pool.map(get_all_links_from,channel_list.split())

所有的程序会被放到进程池Pool()中并分配CPU。

此处用到了map函数,map函数会根据提供的函数对指定序列做映射。第一个参数 function 以参数序列中的每一个元素调用 function 函数,返回包含每次 function 函数返回值的新列表。举例说明如下:

print(list(map(double,[1,2,3,4])))
#[2,4,6,8]

以上即调用多进程,重点为Pool函数的使用。

实现多进程爬虫的数据抓取

原文:http://www.cnblogs.com/zjlbupt/p/7813121.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!