首页 > 编程语言 > 详细

Python爬虫爬取一篇韩寒新浪博客

时间:2017-06-23 14:39:20      阅读:355      评论:0      收藏:0      [点我收藏+]



网上看到大神对Python爬虫爬到非常多实用的信息,认为非常厉害。突然对想学Python爬虫,尽管自己没学过Python。但在网上找了一些资料看了一下,看到爬取韩寒新浪博客的视频。共三集,第一节讲爬取一篇博客,第二节讲爬取一页博客。第三集讲爬取所有博客。

看了视频。也留下了代码。

爬虫第一步:查看网页源码:

技术分享

第一篇博客的代码为蓝底的部分<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《论电影的七个元素》——关于我对电…</a>

对照其它博客的代码,找出公共部分“< title=‘’ ‘href=’,‘.html‘


代码为:

# -*- coding : -utf-8 -*-
import urllib
str0 ='<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《论电影的七个元素》——关于我对电…</a>'
title = str0.find(r'<a title')
#print title
href = str0.find(r'href=')
#print href
html = str0.find(r'.html')
#print html

url = str0[href + 6:html + 5]
print url

content = urllib.urlopen(url).read()
#print content

filename = url[-26:]
print filename
open(filename+'.html','w').write(content)
print '下载成功!'

执行结果:

技术分享



保存的文件:

技术分享

Python爬虫爬取一篇韩寒新浪博客

原文:http://www.cnblogs.com/jzssuanfa/p/7069786.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!