startproject :在 project_name 文件夹下创建一个名为 project_name 的Scrapy项目。
scrapy startproject myproject
fetch:使用Scrapy下载器(downloader)下载给定的URL,并将获取到的内容送到标准输出。
scrapy fetch --nolog --headers http://www.example.com/
view:在浏览器中打开给定的URL,并以Scrapy spider获取到的形式展现。
scrapy view http://www.example.com/some/page.html
version:输出Scrapy版本。
parse:获取给定的URL并使用相应的spider分析处理。如果您提供 --callback 选项,则使用spider的该方法处理,否则使用 parse 。
--spider=SPIDER: 跳过自动检测spider并强制使用特定的spider
--a NAME=VALUE: 设置spider的参数(可能被重复)
--callback or -c: spider中用于解析返回(response)的回调函数
--pipelines: 在pipeline中处理item
--rules or -r: 使用 CrawlSpider 规则来发现用来解析返回(response)的回调函数
--noitems: 不显示爬取到的item
--nolinks: 不显示提取到的链接
--nocolour: 避免使用pygments对输出着色
--depth or -d: 指定跟进链接请求的层次数(默认: 1)
--verbose or -v: 显示每个请求的详细信息
scrapy parse http://www.example.com/ -c parse_item
genspider:在当前项目中创建spider。
scrapy genspider [-t template] <name> <domain>
scrapy genspider -t basic example example.com
bench:运行benchmark测试。
body = ‘<html><body><span>good</span></body></html>‘
Selector(text=body).xpath(‘//span/text()‘).extract()
response = HtmlResponse(url=‘http://example.com‘, body=body)
Selector(response=response).xpath(‘//span/text()‘).extract()
Scrapy提供了两个实用的快捷方式: response.xpath() 及 response.css()
>>> response.xpath(‘//base/@href‘).extract()
>>> response.css(‘base::attr(href)‘).extract()
>>> response.xpath(‘//a[contains(@href, "image")]/@href‘).extract()
>>> response.css(‘a[href*=image]::attr(href)‘).extract()
>>> response.xpath(‘//a[contains(@href, "image")]/img/@src‘).extract()
>>> response.css(‘a[href*=image] img::attr(src)‘).extract()
选择器方法( .xpath() or .css() )返回相同类型的选择器列表,因此你也可以对这些选择器调用选择器方法。下面是一个例子:
links = response.xpath(‘//a[contains(@href, "image")]‘)
for index, link in enumerate(links):
args = (index, link.xpath(‘@href‘).extract(), link.xpath(‘img/@src‘).extract())
print ‘Link number %d points to url %s and image %s‘ % args
Selector 也有一个 .re() 方法,用来通过正则表达式来提取数据。然而,不同于使用 .xpath() 或者 .css() 方法, .re() 方法返回unicode字符串的列表。所以你无法构造嵌套式的 .re() 调用。
>>> response.xpath(‘//a[contains(@href, "image")]/text()‘).re(r‘Name:\s*(.*)‘)
>>> for p in divs.xpath(‘//p‘): # this is wrong - gets all <p> from the whole document
... print p.extract()
>>> for p in divs.xpath(‘.//p‘): # extracts all <p> inside
... print p.extract()
>>> for p in divs.xpath(‘p‘): #gets all <p> from the whole document
... print p.extract()
例如在XPath的 starts-with() 或 contains() 无法满足需求时, test() 函数可以非常有用。
>>> sel.xpath(‘//li//@href‘).extract()
>>> sel.xpath(‘//li[re:test(@class, "item-\d$")]//@href‘).extract()
def parse(self, response):
l = ItemLoader(item=Product(), response=response)
l.add_xpath(‘name‘, ‘//div[@class="product_name"]‘)
l.add_xpath(‘name‘, ‘//div[@class="product_title"]‘)
l.add_xpath(‘price‘, ‘//p[@id="price"]‘)
l.add_css(‘stock‘, ‘p#stock]‘)
l.add_value(‘last_updated‘, ‘today‘) # you can also use literal values
return l.load_item()
每个item pipeline组件都需要调用该方法,这个方法必须返回一个 Item (或任何继承类)对象, 或是抛出 DropItem 异常,被丢弃的item将不会被之后的pipeline组件所处理。
参数:
import pymongo
class MongoPipeline(object):
def __init__(self, mongo_uri, mongo_db):
self.mongo_uri = mongo_uri
self.mongo_db = mongo_db
@classmethod
def from_crawler(cls, crawler):
return cls(
mongo_uri=crawler.settings.get(‘MONGO_URI‘),
mongo_db=crawler.settings.get(‘MONGO_DATABASE‘, ‘items‘)
)
def open_spider(self, spider):
self.client = pymongo.MongoClient(self.mongo_uri)
self.db = self.client[self.mongo_db]
def close_spider(self, spider):
self.client.close()
def process_item(self, item, spider):
collection_name = item.__class__.__name__
self.db[collection_name].insert(dict(item))
return item
为了启用一个Item Pipeline组件,你必须将它的类添加到 ITEM_PIPELINES 配置,就像下面这个例子:
ITEM_PIPELINES = {
‘myproject.pipelines.PricePipeline‘: 300,
‘myproject.pipelines.JsonWriterPipeline‘: 800,
}
分配给每个类的整型值,确定了他们运行的顺序,item按数字从低到高的顺序,通过pipeline,通常将这些数字定义在0-1000范围内。
from twisted.internet import reactor, defer
from scrapy.crawler import CrawlerRunner
from scrapy.utils.project import get_project_settings
runner = CrawlerRunner(get_project_settings())
dfs = set()
for domain in [‘scrapinghub.com‘, ‘insophia.com‘]:
d = runner.crawl(‘followall‘, domain=domain)
dfs.add(d)
defer.DeferredList(dfs).addBoth(lambda _: reactor.stop())
reactor.run() # the script will block here until all crawling jobs are finished
Scrapyd
Spider中间件
下载器中间件(Downloader Middleware)
内置设定参考手册
Requests and Responses
Scrapy入门教程
原文:http://www.cnblogs.com/Leo_wl/p/6213496.html