首页 > 其他 > 详细

Scrapy

时间:2019-05-17 23:18:23      阅读:136      评论:0      收藏:0      [点我收藏+]

Scrapy入门


 

1.安装scrapy

  • linux环境下直接执行命令:
    • pip  install scrapy
  • 安装完成之后直接在控制台输入:scrapy,如不报错,则安装成功

        

2.创建项目

  • scrapy  startproject  <project_name>
    • 这个命令可以在任何文件夹下运行,执行完毕之后会在当前目录下创建一个你的项目的名字的文件夹
    • 该文件夹的目录结构:
      • project_name
        • project_name
          • sriders
            • __init__.py
          • __init__.py
          • items.py
          • middlewares.py
          • piplines.py
          • settings.py
        • #scrapy.cfg    //它是scrapy项目的配置文件,其内定义了项目文件的配置文件路径、部署相关信息等内容。
        • #items.py    //它定义了items的数据结构,所有的items都可以在这里定义。
        • #middlewares.py    //它定义了spider middlewares和download middlewares的实现。
        • #piplines.py     //它定义item pipline的实现,所有的item pipline的实现都可以放在这里。
        • #settings.py    //定义项目的全局配置

    

3.创建spider

  • 在scrapy.cfg的同级目录下执行命令:
    • scrapy  genspider  <spider_name>  <project_start_url>
    • 执行完毕之后会在spiders的目录下生成一个<spider_name>.py的文件

    

4.实际创建

  1. scrapy  startproject  books
  2. cd books
  3. scrapy  genspider  quanshu  quanshuwang.com
  4. cd  books/scrapy
  5. cat  quanshu.py
  6.  1 # -*- coding: utf-8 -*-
     2 import scrapy
     3 
     4 
     5 class QuanshuSpider(scrapy.Spider):
     6     name = quanshu
     7     allowed_domains = [quanshuwang.com]
     8     start_urls = [http://quanshuwang.com/]
     9 
    10     def parse(self, response):
    11         pass

     

       该文件里面有个<project_name>的类,该类继承自scrapy.Spider

    name:该爬虫的名字,有且唯一,用于区别不同的爬虫和启动项目

    allowed_domains:爬虫允许访问的域名

    start_url:爬虫其实的url

    parse方法:爬虫启动的时候,会默认调用parse,该方法主要用于对网页的解析。该方法有一个response参数,该参数为访问的url的结果对象。可以在parse方法中print(dir(response))来了解该对象的方法和属性。

 

5.启动爬虫

  scrapy  crawl  <project_name>[类的name属性]

 

Scrapy

原文:https://www.cnblogs.com/ivy-blogs/p/10884047.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!