分布式爬虫

时间：2020-04-13 10:35:22 阅读：78 评论：0 收藏：0 [点我收藏+]

分布式爬虫

安装：

pip3 install scrapy-redis

1. 修改原来的爬虫继承和start_urls

from scrapy_redis.spiders import RedisSpider
class CnblogsSpider(RedisSpider):
      #start_urls = [‘http://www.cnblogs.com/‘]
    redis_key = ‘myspider:start_urls‘

2. 在settings中配置

# 2 在setting中配置
  SCHEDULER = "scrapy_redis.scheduler.Scheduler"
  DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 这里可以不配就走每一个的数据库，配置了就走公用的数据库
  ITEM_PIPELINES = {
     ‘scrapy_redis.pipelines.RedisPipeline‘: 300
  }
# REDIS_HOST = ‘localhost‘
# REDIS_PORT = 6379
# REDIS_ENCODING = ‘utf8‘
REDIS_PARAMS = {‘password‘:‘2694‘}

3. 多台机器启动爬虫

4. 通过命名向redis中发送起始url

redis-cli
auth password
lpush myspider:start_urls https://www.cnblogs.com

分布式爬虫

原文：https://www.cnblogs.com/baohanblog/p/12689088.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)