首页 > 其他 > 详细

逐梦的猫 scrapy框架学习(三)

时间:2021-01-27 09:54:18      阅读:25      评论:0      收藏:0      [点我收藏+]

项目启动

1.seting.py配置文件设置好之后,在爬虫文件中构建解析代码

spider_QiuShi.py

import scrapy


class SpiderQiushiSpider(scrapy.Spider):
    #爬虫名字
    name = spider_QiuShi
    #域名限制列表,列表值可以设置多个,限制爬虫只爬取该域名下的网页
    allowed_domains = [www.qiushibaike.com]
    #初始爬取地址
    start_urls = [http://www.qiushibaike.com/text]

    def parse(self, response):
        div_list= response.xpath(//div[@class="col1 old-style-col1"]/div)
        items=[]
        for li in div_list:
            name= li.xpath(.//h2/text())[0].extract().strip(\n).strip( )
            face_src= "https:"+li.xpath(.//div[1]/a[1]/img/@src)[0].extract().split(?)[0]
            item= {
                "名称":name,
                "链接":face_src
            }
            items.append(item)

        print(items)
        return items

2.response的常用方法和属性
  text: 字符串类型
  body: 字节类型
  xpath(): scrapy内部已经集成了xpath,直接使用即可,但这里的xpath其他 包中的xpath略有不同,定位后提取出来的元素为selector对象

  因此要获取其中的值需要使用.extract()方法。

3.运行爬虫

scrapy crawl spider_QiuShi

技术分享图片

 

4.指定格式执行输出

scrapy crawl spider_QiuShi  -o qiushibaike.json
scrapy crawl spider_QiuShi  -o qiushibaike.xml
scrapy crawl spider_QiuShi  -o qiushibaike.csv

技术分享图片

逐梦的猫 scrapy框架学习(三)

原文:https://www.cnblogs.com/gostClimbers/p/14333023.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!