爬虫进阶篇（一）scrapy

时间：2020-06-16 22:44:51 阅读：108 评论：0 收藏：0 [点我收藏+]

1.本教程默认认为您已经像我一样是个半吊子爬虫程序员

2.学习爬虫首先要懂得request，json，bs4,re,xpath，pymysql，random,time,文件相关，理解网络编程基本原理，懂得如何抓取url，知道抓包，并且分析url如何获取相关数据。

3.学习scrapy首先需要安装这款框架，打开cmd 输入pip -install scrapy

4.这框架会关联很多的库，百度教程有，很麻烦的，我用的第三方工具下载的：anaconda,安装环境后通过命令行就可直接安装所有关联。

5.好了，开始进入主题，介绍一下scrapy，这款框架有url去重功能，支持高并发，快速集成使用，上手方便。

6.如何使用呢？首先：创建工程，在命令行输入 scrapy startproject 项目名称

7.创建爬虫文件：scrapy genspider 文件名要爬取网站的网址

8.文件创建好之后如何运行呢：命令运行，scrapy crawl 爬虫文件的名称（7的名称）

9.命令行比较麻烦，pytharm的运行创建文件start.py

# -*- coding: utf-8 -*-
from scrapy import cmdline
cmdline.execute([‘scrapy‘,‘crawl‘,‘tlys‘])

10.修改默认配置文件settings.py

# Obey robots.txt rules 不遵守爬虫协议
ROBOTSTXT_OBEY = False
#日志级别 清爽
LOG_LEVEL=‘WARN‘
#请求头信息
DEFAULT_REQUEST_HEADERS = {
  ‘Accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8‘,
  ‘Accept-Language‘: ‘en‘,
    ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36‘
}

#爬虫延时，防止封号
DOWNLOAD_DELAY = 1

爬虫进阶篇（一）scrapy

原文：https://www.cnblogs.com/q1359720840/p/python.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)