python豆瓣的简单爬虫

时间：2019-03-06 23:01:59 阅读：212 评论：0 收藏：0 [点我收藏+]

https://movie.douban.com/

直奔主题，给个要爬取的豆瓣电影地址，爬取热门电影名字。

技术分享图片

右键选择查看网页源码，我们可以发现在网页静态源码里，是找不到‘来电狂想’这些关键字的。

技术分享图片

通过检查网页，查看network下的XHR，我们可以找到对应的信息。说明我们想要爬取的这部分内容是通过Ajax从后台拿到的json数据。

技术分享图片

copy link address得到访问的url：https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=50&page_start=0

分析url，传入的参数：

{‘type‘: ‘movie‘, ‘tag‘: ‘热门‘, ‘page_limit‘: 50, ‘page_start‘: 0}  # 数据类型是电影，标签是热门，返回数据总数50条，数据起始位置第0条

于是我们就可以写个脚本，将0-50条json数据里title字段的值（热门电影的名字）爬取下来。

from urllib.parse import urlencode
from urllib.request import urlopen, Request
import simplejson
import ssl

# 伪装成浏览器
ua = ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36‘
base_url = ‘https://movie.douban.com/j/search_subjects‘
d = {
    ‘type‘: ‘movie‘,
    ‘tag‘: ‘热门‘,
    ‘page_limit‘: 50,
    ‘page_start‘: 0
}

# ssl验证问题:忽略不信任的证书。就可以访问该网站
context = ssl._create_unverified_context()

# url编码后，传入Request()函数；headers参数伪装浏览器
req = Request(‘{}?{}‘.format(base_url, urlencode(d)), headers={‘User-agent‘: ua})

with urlopen(req, context=context) as res:
    res = simplejson.loads(res.read())  # json转dict

    for subject in res[‘subjects‘]:
        print(subject[‘title‘])  # 取出电影名字
        with open(‘douban.txt‘, ‘a‘) as f:
            f.write(subject[‘title‘] + ‘\n‘)

部分结果：

小偷家族
蜘蛛侠：平行宇宙
三次元女友
悠哉日常大王剧场版：假期活动
独家记忆番外之相信爱
波西米亚狂想曲
白蛇：缘起
谁先爱上他的
“大”人物
无敌破坏王2：大闹互联网
来电狂响
神奇动物：格林德沃之罪
无名之辈
毒液：致命守护者

python豆瓣的简单爬虫

原文：https://www.cnblogs.com/hongdanni/p/10486274.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)