- scrapy环境的安装
a. pip3 install wheel
b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
c. 进入下载目录,执行 pip3 install Twisted?17.1.0?cp35?cp35m?win_amd64.whl
d. pip3 install pywin32
e. pip3 install scrapy
- scrapy使用
- 1.创建一个工程:scrapy startproject ProName (注 startproject 中间没有空格)
- 2.cd ProName
- 3.创建爬虫文件:scrapy genspider first www.xxx.com
- 4.执行:(allowed_domains 注释掉)
- settings.py:
- 不遵从rbotes协议
- 进行UA伪装
- 指定日志等级:LOG_LEVEL = ‘ERROR’
scrapy crawl spiderName
- 持久化存储
- 基于终端指令:
- 前提:只可以将parse方法的返回值进行本地文件的持久化存储
- 指令:scrapy crawl spiderName -o filePath
- 基于管道:
- 编码流程:
1.数据解析
2.需要在item类中定义相关的属性(存储解析到的数据)(在 items.py 中添加属性)
3.将解析到的数据存储或者封装到一个item类型的对象中(在 主文件里 实例化item 封装数据)
4.将item对象提交到管道中(yield item)
5.在管道中需要接收item,且将item对象中的数据进行任意形式的持久化操作(在piplines.py里添加
)
6.在配置文件中开启管道(settings 里打开 ITEM_PIPELINES)
allowed_domains原文:https://www.cnblogs.com/qj696/p/11316762.html