首页 > 其他 > 详细

使用scrapy实现去重,使用Redis实现增量爬取

时间:2020-06-20 18:59:12      阅读:106      评论:0      收藏:0      [点我收藏+]

面试场景:

  要求对正在爬取的内容与mysql数据库中的数据进行比较去重

解决方式:

  通过Redis来作为中间件,通过url来确保爬过的数据不会再爬,做到增量爬取。

  Redis数据库其实就是一个中间件,因为爬虫爬取的数据并不能直接拿去和MySQL中的数据进行比较。那我们就需要将MySQL数据库现有的数据备份出来保存在一个有键值对的Redis数据库中,再将爬取到的数据和Redis数据库中的数据进行比较,若Redis数据库中已经存在数据则丢弃,若Redis数据库中不存在该条数据则保存进入MySQL数据库中。没执行一次Redis数据库就会被重置一次。

 

使用scrapy实现去重,使用Redis实现增量爬取

原文:https://www.cnblogs.com/LBDJSBP/p/13169983.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!