?
https://github.com/rmax/scrapy-redis
把源码中的 src 复制到 自己项目中
?
?
?
?
from scrapy_redis.spiders import RedisSpider
class HmmSpider(RedisSpider):
name = ‘spider_redis‘
allowed_domains = [‘xxx1.com‘]
redis_key = "redisqueue_online"
custom_settings = {
‘SCHEDULER‘ : "scrapy_redis.scheduler.Scheduler", # 启用Redis调度存储请求队列
‘SCHEDULER_PERSIST‘ : True, # 不清除Redis队列、这样可以暂停/恢复 爬取
‘DUPEFILTER_CLASS‘ : "scrapy_redis.dupefilter.RFPDupeFilter", # 确保所有的爬虫通过Redis去重
‘SCHEDULER_QUEUE_CLASS‘ : ‘scrapy_redis.queue.SpiderPriorityQueue‘,
‘REDIS_HOST‘: ‘111.131.124.111‘,
‘REDIS_PORT‘: ‘6379‘,
‘REDIS_ENCODING‘: ‘utf-8‘,
‘REDIS_PARAMS‘: {‘password‘: ‘1234‘}
}
原文:https://blog.51cto.com/u_13888585/2811006
踩
(0)
赞
(0)
举报
评论 一句话评论(0)