首页 > 编程语言 > 详细

python爬虫4--urllib请求库之robotparser模块

时间:2020-01-03 09:54:40      阅读:90      评论:0      收藏:0      [点我收藏+]

 robotparser模块提供了一个RobotFileParser类,可以方便的判断哪些页面可以抓取,哪些页面不可以抓取。

首先需创建类:urllib.robotparser.RobotFileParser(url=‘‘),申明是也可以不传入url,用set_url()设置。

该类常用方法:

  • set_url():设置robots.txt文件的链接;
  • read():读取robots.txt文件并进行分析,该方法不会返回结果,但对文件进行了读取操作,这一步必须调用,如果不调用,则接下来的判断均为False;
  • parser():解析robots.txt文件;
  • can_fetch():第一个 参数为user_agent,第二个参数为要抓取的url,判断该搜索引擎是否可抓取该url;
  • mtime():返回上次抓取和分析robots.txt协议的时间;
  • modified():将当前时间设置为上次抓取和分析的时间。

代码:

技术分享图片

python爬虫4--urllib请求库之robotparser模块

原文:https://www.cnblogs.com/rong1111/p/12143005.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!