06. scrapy的Request对象

时间：2019-10-17 18:00:12 阅读：64 评论：0 收藏：0 [点我收藏+]

class scrapy.http.Request(url[, callback, method="GET", headers, body, cookies, meta, encoding=‘utf8‘, priority=0, dont_filter=Falese, errback]))

参数详解:

url : 目标请求地址
callback : 指定http方法, 默认为get
method : 自定http方法, 默认为get
meta : request.meta 可以传一些键值对
body : 请求正文, 二进制内容
headers : http请求头
cookies: 附带在请求中要一起发出的cookies对象
encoding : 当前请求的编码方式, 设置为true则不过滤请求
priority : 设置请求的优先级, 默认为0, 这个优先级是scheduler在线程中用于定义处理请求的顺序
dont_filter : 默认为False, 设置为True则不过滤请求
erraback: 当请求发生任何异常时就会调用此回调函数
　　
 
 

import scrapy 
from  scrapy.linkextractors import LinkExtractor

class DeepInSpider( scrapy.Spider ):
    name = ‘example.com‘
    start_urls = [ ‘https://www.baidu.com‘ ]
    
    def parse( self, response ):
        link_extractor = LinkExtractor()
        seen =set()
        
        linkes = link_extractor.extract_links(response)
        links = [ link for link in linkes if link not in senn ]

        for link in links:
            print( link.url )
            seen.add(link)
            cd = None
            if ( link.contains( ‘detail ) ):
                cd = self.parse_detail
            yield scrapy.Request( url=link, callback=cd )
            yield scrapy.Request( url = link.url, callback=cd )

    def parse_detail(self, response):
        pass
 

原文：https://www.cnblogs.com/zhangjian0092/p/11693669.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)