逐梦的猫 scrapy框架学习（三）

时间：2021-01-27 09:54:18 阅读：27 评论：0 收藏：0 [点我收藏+]

项目启动

1.seting.py配置文件设置好之后，在爬虫文件中构建解析代码

spider_QiuShi.py

import scrapy


class SpiderQiushiSpider(scrapy.Spider):
    #爬虫名字
    name = ‘spider_QiuShi‘
    #域名限制列表，列表值可以设置多个，限制爬虫只爬取该域名下的网页
    allowed_domains = [‘www.qiushibaike.com‘]
    #初始爬取地址
    start_urls = [‘http://www.qiushibaike.com/text‘]

    def parse(self, response):
        div_list= response.xpath(‘//div[@class="col1 old-style-col1"]/div‘)
        items=[]
        for li in div_list:
            name= li.xpath(‘.//h2/text()‘)[0].extract().strip(‘\n‘).strip(‘ ‘)
            face_src= "https:"+li.xpath(‘.//div[1]/a[1]/img/@src‘)[0].extract().split(‘?‘)[0]
            item= {
                "名称":name,
                "链接":face_src
            }
            items.append(item)

        print(items)
        return items

2.response的常用方法和属性
　　text: 字符串类型
　　body: 字节类型
　　xpath(): scrapy内部已经集成了xpath，直接使用即可，但这里的xpath其他包中的xpath略有不同，定位后提取出来的元素为selector对象

　　因此要获取其中的值需要使用.extract()方法。

3.运行爬虫

scrapy crawl spider_QiuShi

技术分享图片

4.指定格式执行输出

scrapy crawl spider_QiuShi -o qiushibaike.json
scrapy crawl spider_QiuShi -o qiushibaike.xml
scrapy crawl spider_QiuShi -o qiushibaike.csv

技术分享图片

逐梦的猫 scrapy框架学习（三）

原文：https://www.cnblogs.com/gostClimbers/p/14333023.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)