首页 > 其他 > 详细

基于scrapy中---全站爬取数据----CrawlSpider的使用

时间:2018-12-18 19:17:59      阅读:171      评论:0      收藏:0      [点我收藏+]

#数据源:糗事百科

爬虫代码:

技术分享图片
 1 import scrapy
 2 from scrapy.linkextractors import LinkExtractor
 3 from scrapy.spiders import CrawlSpider, Rule
 4 
 5 
 6 class QiubaiSpider(CrawlSpider):
 7     name = qiubai
 8     # allowed_domains = [www.xxx.com]
 9     start_urls = [https://www.qiushibaike.com/pic/]
10     #第一页之后的所有url
11     link=LinkExtractor(allow=r/pic/page/\d+\?)
12     #第一页的url
13     link1=LinkExtractor(allow=r/pic/$)
14     rules = (
15         Rule(link, callback=parse_item, follow=True),
16         Rule(link1, callback=parse_item, follow=True),
17     )
18 
19     def parse_item(self, response):
20         print(response.xpath(//*[@id="qiushi_tag_121352783"]/a/div/span/text()).extract_first())
View Code

 

基于scrapy中---全站爬取数据----CrawlSpider的使用

原文:https://www.cnblogs.com/duanhaoxin/p/10138728.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!