首页 > 其他 > 详细

CrawlSpider

时间:2020-01-14 19:24:52      阅读:63      评论:0      收藏:0      [点我收藏+]
  • CrawlSpider

    • 它就是一个类,是scrapy.Spider的一个子类(派生类)
    • 功能:
      • 非常强大
      • 很方便的实现全站数据的爬取
    • 两个属性(对象)
      • 链接提取器
        • 如何进行链接的提取
          • 由开发人员制定相关规则
          • 通过相应的规则进行链接的提取
        • 去哪进行链接的提取
          • 就是在页面(起始URL)中提取
      • 规则解析器
        • 在这进行规则的制定
        • 解析规则和解析数据
          • 如何使用crawlspider
      • 创建项目: scrapy startproject budejiepro
      • 创建基于crawlspider的爬虫文件:
        • cd budejiepro
        • scrapy genspider -t crawl budejie www.xxx.com
      • 执行爬虫文件:
        • 进入到爬虫文件夹
        • 使用命令执行: scrapy runspdier budejie.py

CrawlSpider

原文:https://www.cnblogs.com/youhongliang/p/12193647.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!