首页 > 其他 > 详细

crawlspider

时间:2019-04-27 15:20:21      阅读:94      评论:0      收藏:0      [点我收藏+]

crawlspider提取url

创建一个crawlspider爬虫

scrapy genspider --t crawl baidu baidu.com

创建的爬虫

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class CfSpider(CrawlSpider):
    name = cf
    allowed_domains = [circ.gov.cn]
    start_urls = [http://circ.gov.cn/]
    # 提取规则 follow=True 继续提取(提取下一页地址 需要True)
    rules = (
        Rule(LinkExtractor(allow=rItems/), callback=parse_item, follow=True),
    )

    def parse_item(self, response):
        item = {}
        #item[‘domain_id‘] = response.xpath(‘//input[@id="sid"]/@value‘).get()
        #item[‘name‘] = response.xpath(‘//div[@id="name"]‘).get()
        #item[‘description‘] = response.xpath(‘//div[@id="description"]‘).get()
        return item

 

crawlspider

原文:https://www.cnblogs.com/tangpg/p/10778715.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!