scrapy是一个python爬虫框架,使用起来还是非常简单的。
使用pip安装scrapy
首先安装pip,安装后使用pip安装scrapy,pip install scrapy
scrapy创建项目,及简单测试
这里有几个比较好的例子
http://blog.csdn.net/HanTangSongMing/article/details/24454453
http://my.oschina.net/chengye/blog/124162
他们都是使用的CrawlSpider,这种爬虫的有点事可以帮其获取页面上的链接,然后自动爬取。
每一条rule的意思是
Rule(sle(allow=("/position.php\?&start=\d{,4}#a")), follow=True, callback=‘parse_item‘)
首先rule定义了哪些链接需要做跟踪或处理。
如果rule的follow为true则跟踪匹配规则对应页面上的链接,如果有回调函数则对匹配规则的页面进行分析
scrapy 使用xpath抓取,xpath是一种xml导航语言,非常好用
scrapy的shell工具非常好用
首先打开scrapy shell :scrapy shell
打开后使用fetch(‘url‘),打开要爬去的链接
然后使用 response.xpath(‘//***/***‘) 就能分析页面了
scrapy 的response 已经把页面装维unicode编码了,可以直接encode成gbk或者utf8,。
scrapy中文文档:http://scrapy-chs.readthedocs.org/zh_CN/0.24
我感觉咋像机器翻译的那,有的地方太生硬,可以结合着原文文档使用
原文:http://www.cnblogs.com/krytor/p/4152107.html