首页 > 编程语言 > 详细

PYTHON 利用ImagePipeline专门爬取图片

时间:2020-02-10 21:36:23      阅读:86      评论:0      收藏:0      [点我收藏+]
自定义file_path()函数,即可以原有图像文件名为名来保存,并分类保存
def file_path(self, request, response=None, info=None):
image_guid = request.url.split(‘/‘)[-2]+"/"+request.url.split(‘/‘)[-1]
return image_guid

如果不重新这个函数,则在指定文件夹内新建:full 文件夹,在其内保存图片,图片文件重新命名。

建立其他爬虫时,需要修改:

(一)修改对应的爬虫文件:fenh.py

A allowed_domain
B start_urls:
C 修改parse_item中xpath规则:
           1.分析网页类型,了解网页中需要的图片有几种XPATH规则类型,如果有一个以上,则应该用条件来判断,达到所有规则的都能爬取
   2.一个网页可能有多个需要的对象形成了LIST,则需要for  aa in range(0,len(list)):分别获取

D修改:pipelines.py,其中指定了referer,user-agent
E修改setting.py:指定具体的保存位置IMAGES_STORES=‘D:/TDK/‘

PYTHON 利用ImagePipeline专门爬取图片

原文:https://www.cnblogs.com/xkdn/p/12292396.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!