Scrapy 框架分布式爬虫

时间：2019-04-22 13:56:19 阅读：113 评论：0 收藏：0 [点我收藏+]

分布式爬虫

scrapy-redis 实现
原生scrapy 无法实现分布式
- 调度器和管道无法被分布式机群共享

环境安装
```
- pip install scrapy_redis
```
导包：from scrapy_redis.spiders import RedisCrawlSpider
修改spider爬虫文件
- 将爬虫类的父类修改成RedisCrawlSpider
- 删除allowed_domains和start_urls这两个属性
- 添加一个新属性：redis_key = ‘xxx‘(调度器队列的名称)

配置使用指定的调度器和管道（在配置文件中增加如下配置）

# 增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 使用scrapy-redis组件自己的调度器

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 配置调度器是否要持久化, 也就是当爬虫结束了, 要不要清空Redis中请求队列和去重指纹的set。如果是True, 就表示要持久化存储, 就不清空数据, 否则清空数据

SCHEDULER_PERSIST = True

ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 400
}

指定持久化存储对应redis的服务器：
REDIS_HOST = ‘127.0.0.1‘
REDIS_PORT = 6379
redis配置：（redis.windows.conf）

bind 127.0.0.1

关闭保护模式：protected-mode no
开启redis的服务端和客户端
运行工程：

scrapy runspider spiderFilePath
向调度器的队列中仍入一个起始的url：

在redis的客户端执行：lpush xxx www.xxx.com

Scrapy 框架分布式爬虫

原文：https://www.cnblogs.com/zhang-zi-yi/p/10749452.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

Scrapy 框架 分布式 爬虫

分布式 爬虫

原生scrapy 无法实现 分布式

Scrapy 框架分布式爬虫

分布式爬虫

原生scrapy 无法实现分布式