python-scrapy-全站数据爬取-CrawlSpider

时间：2021-01-13 23:51:42 阅读：37 评论：0 收藏：0 [点我收藏+]

提取符合正则要求的url
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class SunSpider(CrawlSpider):
    name = ‘sun‘
    start_urls = [‘http://wz.sun0769.com/political/index/politicsNewest?id=1&type=4&page=‘]

    # 链接提取器：可以根据指定的规则（allow）进行链接的提取
    link = LinkExtractor(allow=r‘/political/index/politicsNewest\?id=1&page=\d+‘)

    rules = (
        # 规则解析器，可以将like取到的链接进行发送,follow=True所有符合要求的链接都可以取出来
        Rule(link, callback=‘parse_item‘, follow=True),
    )

    def parse_item(self, response):
        print(response)


提取起始页面中所有的url

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class SunSpider(CrawlSpider):
    name = ‘sun‘
    start_urls = [‘http://wz.sun0769.com/political/index/politicsNewest?id=1&type=4&page=‘]

    # 链接提取器：可以根据指定的规则（allow）进行链接的提取
    link = LinkExtractor(allow=r‘‘)

    rules = (
        # 规则解析器，可以将like取到的链接进行发送,follow=True所有符合要求的链接都可以取出来
        Rule(link, callback=‘parse_item‘, follow=True),
    )

    def parse_item(self, response):
        print(response)

原文：https://www.cnblogs.com/shiyi525/p/14274569.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)