爬虫之SCRAPY

时间：2019-08-07 17:56:41 阅读：83 评论：0 收藏：0 [点我收藏+]

- scrapy环境的安装
      a. pip3 install wheel

      b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

      c. 进入下载目录，执行 pip3 install Twisted?17.1.0?cp35?cp35m?win_amd64.whl

      d. pip3 install pywin32

      e. pip3 install scrapy

- scrapy使用
    - 1.创建一个工程：scrapy startproject ProName   （注  startproject    中间没有空格）
    - 2.cd ProName
    - 3.创建爬虫文件：scrapy genspider first www.xxx.com
    - 4.执行：（allowed_domains  注释掉）
        - settings.py:
            - 不遵从rbotes协议
            - 进行UA伪装
            - 指定日志等级：LOG_LEVEL = ‘ERROR’
        scrapy crawl spiderName

- 持久化存储
    - 基于终端指令：
        - 前提：只可以将parse方法的返回值进行本地文件的持久化存储
        - 指令：scrapy crawl spiderName -o filePath
    - 基于管道：
        - 编码流程：
            1.数据解析
            2.需要在item类中定义相关的属性（存储解析到的数据）(在 items.py 中添加属性)
            3.将解析到的数据存储或者封装到一个item类型的对象中（在 主文件里 实例化item 封装数据）
            4.将item对象提交到管道中(yield item)
            5.在管道中需要接收item，且将item对象中的数据进行任意形式的持久化操作（在piplines.py里添加
）
　　　　　　　6.在配置文件中开启管道（settings 里打开 ITEM_PIPELINES）

allowed_domains

爬虫之SCRAPY

原文：https://www.cnblogs.com/qj696/p/11316762.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)