基于spider的全站数据爬取

时间：2020-05-29 12:15:50 阅读：48 评论：0 收藏：0 [点我收藏+]

全站数据爬取就是将网站中某板块下的全部页码对应的页面进行爬取解析

需求：爬取校花网中照片的名称

实现方式：

将所有页面的url添加到start_url列表中（不推荐）

自行手动的进行请求发送（推荐）

手动请求发送

yield scrapy.Request(url=new_url,callback=self.parse)

import scrapy


class XiaohuaSpider(scrapy.Spider):
    name = ‘xiaohua‘
    # allowed_domains = [‘www.xxx.com‘]
    start_urls = [‘http://www.521609.com/daxuemeinv/‘]

    # 生成一个通用的url模板(不可变)
    url = ‘http://www.521609.com/daxuemeinv/list8%d.html‘
    page_num = 2

    def parse(self, response):
        li_list = response.xpath(‘//*[@id="content"]/div[2]/div[2]/ul/li‘)
        for li in li_list:
            img_name = li.xpath(‘./a[2]/b/text() | ./a[2]/text()‘  ).extract_first()
            print(img_name)

        if self.page_num <= 11:
            new_url = format(self.url%self.page_num)
            self.page_num += 1
            # 手动请求发送:callback回调函数是专门用作于数据解析
            yield scrapy.Request(url=new_url,callback=self.parse)

基于spider的全站数据爬取

原文：https://www.cnblogs.com/nanjo4373977/p/12986706.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)