首页 > 其他 > 详细

《自己动手写网络爬虫》读书笔记——队列与集合

时间:2015-05-20 23:47:06      阅读:240      评论:0      收藏:0      [点我收藏+]

队列:

  在爬虫程序中, 用到了广度优先搜索(BFS)算法. 这个算法用到的数据结构就是队列。

  在python中提供了collection.deque用来实现了queue的相关操作,其官方实力如下:

  技术分享

集合:  

  在爬虫程序中, 为了不重复爬那些已经爬过的网站, 我们需要把爬过的页面的url放进集合中, 在每一次要爬某一个url之前, 先看看集合里面是否已经存在. 如果已经存在, 我们就跳过这个url; 如果不存在, 我们先把url放入集合中, 然后再去爬这个页面.

  Python提供了set这种数据结构. set是一个包含不同元祖的无序集。基本功能包括关系测试和剔除重复记录。集合对象同样支持数学操作,像联合、交、差和对称差。  

  大括号或set()函数可以用来创建集合。如果想要创建空集合,必须使用set()而不是{}。后者用于创建空字典。官方示例如下:

  技术分享

 

  技术分享

  其中,a - b表示在a中而不在b中的元素,a | b表示a与b的元素合集,a & b表示a与b中都有的元素, a ^ b表示a与b的非公共元素。

《自己动手写网络爬虫》读书笔记——队列与集合

原文:http://www.cnblogs.com/bianjun/p/4518550.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!