首页 > 编程语言 > 详细

基于python2的豆瓣Top250爬虫练习

时间:2018-04-09 16:48:25      阅读:188      评论:0      收藏:0      [点我收藏+]
 1 # coding=utf-8
 2 import urllib
 3 import re
 4 #获取源码
 5 def gethtml(pg):
 6     url = https://movie.douban.com/top250?start=%d&filter= % pg
 7     html = urllib.urlopen(url).read()
 8     return html
 9 
10 #爬取数据
11 if __name__ == __main__:
12     pat = re.compile(<em class="">(.*?)</em>.*?<a href="(.*?)">.*?<img.*?alt="(.*?)" src="(.*?)".*?>,re.S)
13     for i in range(0,226,25):
14         html = gethtml(i)
15         listnum = re.findall(pat,html) #findall返回的是一个tuple
16         for i in range(25):
17             for j in range(4):
18                 print listnum[i][j]

 

基于python2的豆瓣Top250爬虫练习

原文:https://www.cnblogs.com/WXfresh/p/8658024.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!