用python爬取豆瓣电影Top 250

时间：2019-12-08 17:51:15 阅读：129 评论：0 收藏：0 [点我收藏+]

　　首先，打开豆瓣电影Top 250，然后进行网页分析。找到它的Host和User-agent，并保存下来。技术分享图片　　然后，我们通过翻页，查看各页面的url，发现规律：

　　第一页：https://movie.douban.com/top250?start=0&filter=

　　第二页：https://movie.douban.com/top250?start=25&filter=

　　第三页：https://movie.douban.com/top250?start=50&filter=

　　第四页：https://movie.douban.com/top250?start=75&filter=

　　我们发现，每个页面的url都是https://movie.douban.com/top250?start= +25+ &filter=的规律。如此，就可以开始写代码：

import requests
from bs4 import BeautifulSoup
def get_movie():
    headers={
        ‘Host‘: ‘movie.douban.com‘,
        ‘User-Agent‘: ‘Mozilla / 5.0(Windows NT 6.1;WOW64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 45.0.2454.101Safari / 537.36‘
    } #防止反扒措施
    movie_list=[]
    for i in range(10):
        url=‘https://movie.douban.com/top250?start=‘+str(i*25) #各页面url
        response=requests.get(url,headers=headers,timeout=10)
        soup=BeautifulSoup(response.text,‘lxml‘)
        div_list=soup.find_all(‘div‘,class_=‘hd‘)
        for each in div_list:
            movie=each.a.span.text.strip()
            movie_list.append(movie)
    for j in movie_list:
        print(j) #按格式输出电影名称
get_movie()

　　下面给出运行结果：

技术分享图片

用python爬取豆瓣电影Top 250

原文：https://www.cnblogs.com/Chen-K/p/12006365.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)