一个网站的诞生03--抓取评论数最多的一万家餐厅

时间：2014-08-06 14:53:31 阅读：407 评论：0 收藏：0 [点我收藏+]

在大众点评网上，有很多种方式对餐厅进行排序，比如http://www.dianping.com/search/category/1/10/o10，是上海全市按照评论总数最多对餐厅进行排序，下面有50个分页，也就是上海历年累计评论综述最多的750家餐厅。但只有750家，少了点。上海有18个区，逐区点击的话，每区都会显示前750家餐厅，比如这个http://www.dianping.com/search/category/1/10/r802o10，是浦东新区八佰伴地段的前750家。上海现在有十万家餐厅，以这种方式至少可以得到top8万家餐厅的数据。

但是拿到这么多数据是没有意义的，因为大部分餐厅都是普通餐厅，提供的是常规餐饮，吃了就吃了，不会有人想着去点评一下。只有特别赞的餐厅，才有人点评。或者只有很在意生意的餐厅，才会雇水军帮自己写点评。

经过数据分析发现，上海只有300家左右的餐厅每月的评论数超过100条，占餐厅总数的0.3%。如果一家餐厅每个月的评论数超过20条，那它就进入了前3000名，其实蛮不可思议的。公众参与度不够高，餐厅参与度不够高，这说明点评界还是大有可为的！

闲话少说，这次我们的目的是抓取上海评论数最多的前一万家餐厅，从上海的每个区抓750个，18个区就是13500个，去掉几百个同时属于两个或者两个以上区的餐厅，一万多个就足够了。这一万多个，足以覆盖每个区有料的餐厅。

以浦东新区为例做抓取。浦东新区评论数最多的前750个餐厅，对应的网址是http://www.dianping.com/search/category/1/10/r5o10p1，注意，category后面的1是上海的城市代码，r5是浦东新区的代码，p1是第一页，有15个餐厅，其他的各符号意义暂且不用管。上海每个区至少有上千家餐厅，所以不用考虑餐厅不到750个的情况，不用处理这个异常。那么，我们至少把这个链接最后一个数，从1到50列出来，抓取html页面，然后提取餐厅信息就可以了。

在抓取前，要把配置文件修改一下，/tmp/srcapy-test/crawdp/crawdp/setting.py，要添加四行代码，修改成如下形式：

------------------------------------

BOT_NAME = ‘crawdp‘

BOT_VERSION = ‘1.0‘

SPIDER_MODULES = [‘crawdp.spiders‘]

NEWSPIDER_MODULE = ‘crawdp.spiders‘

USER_AGENT = ‘%s/%s‘ % (BOT_NAME, BOT_VERSION)



DOWNLOAD_DELAY = 5

RANDOMIZE_DOWNLOAD_DELAY = True

USER_AGENT = ‘Mozilla AppleWebKit/537.36 Chrome/27.0.1453.93 Safari/537.36‘

COOKIES_ENABLED = False

-------------------------------------

最后四行代码是新添加的。这次要连续抓取50次页面，每次抓取的间隔时间是5秒，要做随机下载延迟，要禁用Cookie，这些措施为了避免官方服务器禁止抓取。

在/tmp/scrapy-test/crawdp/crawdp/spiders/目录添加文件shopids_spider.py，内容如下

------------------------------------

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector

class ShopidsSpider(BaseSpider):
    name = "shopids_spider"
    start_urls = []
    for i in range(1,51):
        start_urls.append(
        "http://www.dianping.com/search/category/1/10/r5o10p%s" % i)

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        xs = hxs.select(‘//ul[@class=\"detail\"]‘)
        for x in xs:
            print "---------"
            shopid = x.select(‘li[@class=\"shopname\"]/a[@class=\"BL\"]/@href‘).extract()[0].split(‘/‘)[-1]
            shopname = x.select(‘li[@class=\"shopname\"]/a[@class=\"BL\"]/text()‘).extract()[0]
            print "shopid, shopname = %s, %s" % (shopid, shopname)

------------------------------------

然后，在/tmp/scrapy-test/crawdp目录下执行"scrapy crawl shopids_spider"，就可以看到抓取到的餐厅名称，以及它们在大众点评王的shopid，其结果是类似这样的：

---------
shopid, shopname = 5391580, 泰妃阁(新梅广场店)
---------
shopid, shopname = 4043482, 西贝莜面村(金桥店)
---------
shopid, shopname = 2748850, 望湘园(96广场店)
---------
shopid, shopname = 500068, 避风塘(八佰伴店)
---------
shopid, shopname = 5473698, 上上谦串串香火锅(浦东新梅店)
---------
shopid, shopname = 501019, 廊亦舫酒楼(正大店)
---------
shopid, shopname = 559844, 渝乡人家(陆家嘴店)

那么，如何知道上海18个区的id呢？在http://www.dianping.com/search/category/1/10/o10的左侧，点击“按行政区”，即可列出上海18个区的链接，里面包含了每个区的id，只要做一次抓取就可以得到。

这个做法是最简单的方式。其实还可以加入更多的功能，让抓取过程更智能化，比如判断reponse的返回状态，在被403之后，可以暂停若干秒然后继续抓取，再比如将结果存入数据库，或者存入到json文件。这些东东参考scrapy即可搞定。

一个网站的诞生03--抓取评论数最多的一万家餐厅,布布扣,bubuko.com

一个网站的诞生03--抓取评论数最多的一万家餐厅

原文：http://blog.csdn.net/lizhe_dashuju/article/details/38399887

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)