一:创建工程项目 scrapy startproject python123demo
python123demo 外部目录
scrapy.cfg 部署scrapy爬虫的配置文件
python123demo/python123demo scrapy框架的用户自定义python代码
__init__.py 初始化脚本
items.py Items代码模板
middlewares.py Middlewares代码模板
pipelines.py pipelines代码模板
settings.py Scrapy爬虫配置文件
spiders/ Spiders代码模板目录
spiders下有 __init__.py (初始文件)和__pycache__/(缓存目录)
二:创建demo爬虫 scrapy genspider demo python123.io
文件内容;
三:配置产生的spider爬虫 修改文件demo.py
注意:demo应该放在spider文件夹下
四:执行:scrapy crawl demo
结果会在spiders文件夹中多出demo.html
原文:https://www.cnblogs.com/dingh/p/13733209.html