scrapy使用

时间：2014-12-08 22:56:58 阅读：1144 评论：0 收藏：0 [点我收藏+]

scrapy是一个python爬虫框架，使用起来还是非常简单的。

使用pip安装scrapy

首先安装pip，安装后使用pip安装scrapy，pip install scrapy

scrapy创建项目，及简单测试

　　这里有几个比较好的例子

　　http://blog.csdn.net/HanTangSongMing/article/details/24454453

　　http://my.oschina.net/chengye/blog/124162

　　他们都是使用的CrawlSpider，这种爬虫的有点事可以帮其获取页面上的链接，然后自动爬取。

　　每一条rule的意思是

　　Rule(sle(allow=("/position.php\?&start=\d{,4}#a")), follow=True, callback=‘parse_item‘)

　　首先rule定义了哪些链接需要做跟踪或处理。

　　如果rule的follow为true则跟踪匹配规则对应页面上的链接，如果有回调函数则对匹配规则的页面进行分析

scrapy 使用xpath抓取，xpath是一种xml导航语言，非常好用

scrapy的shell工具非常好用

　　首先打开scrapy shell ：scrapy shell

　　打开后使用fetch(‘url‘)，打开要爬去的链接

　　然后使用 response.xpath(‘//***/***‘) 就能分析页面了

scrapy 的response 已经把页面装维unicode编码了，可以直接encode成gbk或者utf8,。

scrapy中文文档：http://scrapy-chs.readthedocs.org/zh_CN/0.24

我感觉咋像机器翻译的那，有的地方太生硬，可以结合着原文文档使用

原文：http://www.cnblogs.com/krytor/p/4152107.html

踩

(0)

评论一句话评论（0）

分享档案

更多>