使用scrapy爬取豆瓣上面《战狼2》影评

时间：2018-01-14 23:50:10 阅读：346 评论：0 收藏：0 [点我收藏+]

这几天一直在学习scrapy框架，刚好学到了CrawlSpider和Rule的搭配使用，就想着要搞点事情练练手！！！

信息提取

算了，由于爬虫运行了好几次，太过分了，被封IP了，就不具体分析了，附上《战狼2》豆瓣影评页面链接：https://movie.douban.com/subject/26363254/reviews

抓包

影评页面是分页的，为了爬取到更多条影评，用Chrome抓包分析请求发现，其实上面的网址可以是这样的：https://movie.douban.com/subject/26363254/reviews?start=0

这下明了了，URL最后的"start=0"就是我们搞更大的事情要用的东西了，先放着。

准备工作

pymysql驱动(pip安装就行了)
mysql数据库
scrapy
***

开搞

创建一个scrapy项目

选择一个自己中意的目录，在终端打开，输入一下命令：

scrapy startproject douban

这样就创建成功了，我使用Pycharm打开的项目，项目目录结构大概就是这样：
技术分享图片
关于各个文件和文件夹有什么用，请自行百度，或者阅读scrapy官方文档
***

代码实现

items.py

因为只是练个手，就不爬太多东西了！

# items.py

import scrapy


class DoubanItem(scrapy.Item):
    title=scrapy.Field() 
    author=scrapy.Field()
    time=scrapy.Field()
    link=scrapy.Field()

title : 题目
author : 影评作者
time : 影评发布时间
link : 影评链接

doubanspider.py

爬虫核心代码

# doubanspider.py

from scrapy.spider import CrawlSpider,Rule
from scrapy.linkextractors import LinkExtractor
from douban.items import DoubanItem

class doubanspider(CrawlSpider):

    name=‘douban‘

    urls=[]
    for i in range(0,60,20):
        page=‘https://movie.douban.com/subject/26363254/reviews?start={0}‘.format(i)
        urls.append(page)

    start_urls=urls

    rules =(Rule(LinkExtractor(allow=(r‘https://movie.douban.com/review/\d+/‘)),callback=‘parse_item‘),)

    def parse_item(self,response):
        douban=DoubanItem()
        douban[‘title‘]=response.xpath(‘//div[@id="content"]//span[@property="v:summary"]/text()‘)[0].extract()
        douban[‘author‘]=response.xpath(‘//div[@class="main"]//span[@property="v:reviewer"]/text()‘)[0].extract()
        douban[‘time‘]=response.xpath(‘//span[@property="v:dtreviewed"]/text()‘)[0].extract()
        douban[‘link‘]=response.url
        # print(douban[‘title‘],douban[‘author‘],douban[‘content‘],douban[‘time‘])
        yield douban

name
关于name这个变量，是这个爬虫名字的代号，不可和其他爬虫程序重复
start_urls
是爬虫程序爬取的对象。前面说到要爬取更多条影评，抓包的到URL里面有 start 参数，通过改变这个参数就可以翻页爬取，这里一共爬取了三页。（尴尬的是其实一开始是一次性爬的5页，后来程序多运行了几次，被douban封了IP，然后我就改成了3页，虽然这个改动没什么用）
CrawlSpider
这里自定义的doubanspider继承自CrawlSpider,后者继承于Spider,需要注意的是，CrawlSpider 重写了parse 方法，所以在自己写的 doubanspider 里不能重写 parse 方法，否则爬虫程序会运行出错。
Rule
Rule 和 CrawlSpider 搭配使用更方便于爬取全站，上面的代码中的 rules 就定义了爬取规则：
```
rules =(Rule(LinkExtractor(allow=(r‘https://movie.douban.com/review/\d+/‘)),callback=‘parse_item‘),)
```
allow 参数传入要爬取内容的规则，callback 传入回调方法名，其实还有一个 follow 参数，默认为 True ，具体用途这里不赘述了。

目前爬取数据可以做到了，但是一运行发现服务器给了 304（呵呵），就在setting.py 里面做了这样一个改动：

ROBOTSTXT_OBEY = False

这个参数原来默认是 True 的，改了这个，然后程序愉快的跑起来了。
***

数据存储到MySQL

这一步。。。个人对连接数据库这个知识点不是很熟，有更好的请指教。
链接数据库主要用的是 SQLAlchemy 这个 python 包，挺好用的，不知道怎么用的可以取廖雪峰大神的教程里面看看。
直接贴代码：

# pipelines.py

from douban.models import Douban
from sqlalchemy.orm import sessionmaker
from sqlalchemy import create_engine

class DoubanPipeline(object):
    def process_item(self, item, spider):
        return item

class DOubanDatabasePipeline(object):

    def __init__(self):
        engine=create_engine(‘mysql+pymysql://root:password@localhost:3306/scrapy_spider?charset=utf8‘)
        self.DBsession=sessionmaker(bind=engine)

    def close_spider(self,spider):
        pass

    def open_spider(self,spider):
        pass

    def process_item(self,item,spider):
        douban=Douban(title=item[‘title‘],author=item[‘author‘],time=item[‘time‘],link=item[‘link‘])
        session=self.DBsession()
        session.add(douban)
        session.commit()
        session.close()

最后别忘了在 setting.py 中设置一下：

ITEM_PIPELINES={
    ‘douban.pipelines.DOubanDatabasePipeline‘:5
}

至此，基本上差不多了，感觉这个项目真的挺粗制滥造的。
github项目地址：https://github.com/killerYe/scrapy_spider
个人微信：yxw19971203
我只是一个初学编程的人，有兴趣可以加微信交流一下！！！

使用scrapy爬取豆瓣上面《战狼2》影评

原文：https://www.cnblogs.com/gracelove/p/8284796.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

使用scrapy爬取豆瓣上面《战狼2》影评

信息提取

抓包

准备工作

开搞

创建一个scrapy项目

代码实现

items.py

doubanspider.py

数据存储到MySQL