首页 > 编程语言 > 详细

python-scrapy-全站数据爬取-CrawlSpider

时间:2021-01-13 23:51:42      阅读:1      评论:0      收藏:0      [点我收藏+]
提取符合正则要求的url
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class SunSpider(CrawlSpider):
name = ‘sun‘
start_urls = [‘http://wz.sun0769.com/political/index/politicsNewest?id=1&type=4&page=‘]

# 链接提取器:可以根据指定的规则(allow)进行链接的提取
link = LinkExtractor(allow=r‘/political/index/politicsNewest\?id=1&page=\d+‘)

rules = (
# 规则解析器,可以将like取到的链接进行发送,follow=True所有符合要求的链接都可以取出来
Rule(link, callback=‘parse_item‘, follow=True),
)

def parse_item(self, response):
print(response)


提取起始页面中所有的url
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class SunSpider(CrawlSpider):
name = ‘sun‘
start_urls = [‘http://wz.sun0769.com/political/index/politicsNewest?id=1&type=4&page=‘]

# 链接提取器:可以根据指定的规则(allow)进行链接的提取
link = LinkExtractor(allow=r‘‘)

rules = (
# 规则解析器,可以将like取到的链接进行发送,follow=True所有符合要求的链接都可以取出来
Rule(link, callback=‘parse_item‘, follow=True),
)

def parse_item(self, response):
print(response)


python-scrapy-全站数据爬取-CrawlSpider

原文:https://www.cnblogs.com/shiyi525/p/14274569.html

(0)
(0)
   
举报
评论 一句话评论(0
© 2014 bubuko.com 版权所有 鲁ICP备09046678号-4
打开技术之扣,分享程序人生!
             

鲁公网安备 37021202000002号