首页 > 其他 > 详细

基于spider的全站数据爬取

时间:2020-05-29 12:15:50      阅读:48      评论:0      收藏:0      [点我收藏+]

全站数据爬取就是将网站中某板块下的全部页码对应的页面进行爬取解析

需求:爬取校花网中照片的名称

实现方式:

将所有页面的url添加到start_url列表中(不推荐)

自行手动的进行请求发送(推荐)

  • 手动请求发送
  • yield scrapy.Request(url=new_url,callback=self.parse)
    import scrapy
    
    
    class XiaohuaSpider(scrapy.Spider):
        name = xiaohua
        # allowed_domains = [‘www.xxx.com‘]
        start_urls = [http://www.521609.com/daxuemeinv/]
    
        # 生成一个通用的url模板(不可变)
        url = http://www.521609.com/daxuemeinv/list8%d.html
        page_num = 2
    
        def parse(self, response):
            li_list = response.xpath(//*[@id="content"]/div[2]/div[2]/ul/li)
            for li in li_list:
                img_name = li.xpath(./a[2]/b/text() | ./a[2]/text()  ).extract_first()
                print(img_name)
    
            if self.page_num <= 11:
                new_url = format(self.url%self.page_num)
                self.page_num += 1
                # 手动请求发送:callback回调函数是专门用作于数据解析
                yield scrapy.Request(url=new_url,callback=self.parse)

     

基于spider的全站数据爬取

原文:https://www.cnblogs.com/nanjo4373977/p/12986706.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!