使用scrapy实现去重，使用Redis实现增量爬取

时间：2020-06-20 18:59:12 阅读：109 评论：0 收藏：0 [点我收藏+]

面试场景：

　　要求对正在爬取的内容与mysql数据库中的数据进行比较去重

解决方式：

　　通过Redis来作为中间件，通过url来确保爬过的数据不会再爬，做到增量爬取。

　　Redis数据库其实就是一个中间件，因为爬虫爬取的数据并不能直接拿去和MySQL中的数据进行比较。那我们就需要将MySQL数据库现有的数据备份出来保存在一个有键值对的Redis数据库中，再将爬取到的数据和Redis数据库中的数据进行比较，若Redis数据库中已经存在数据则丢弃，若Redis数据库中不存在该条数据则保存进入MySQL数据库中。没执行一次Redis数据库就会被重置一次。

使用scrapy实现去重，使用Redis实现增量爬取

原文：https://www.cnblogs.com/LBDJSBP/p/13169983.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)