网页抓取:把URL地址中指定的网络资源从网络流中读取出来,保存到本地。
在python中,使用urllib2来抓取网页。以urlopen函数的形式提供了一个非常简单的接口
1 import urllib2 2 response=urllib2.urlopen(‘http://www.hao123.com‘) #调用的是urllib2库里面的urlopen方法,传入一个URL 3 html=response.read() #response对象有一个read方法,可以返回获取到的网页内容 4 print(html)
urllib2用一个Request对象来映射你提出的HTTP请求。
在它最简单的使用形式中你将用你要请求的地址创建一个Request对象,
通过调用urlopen并传入Request对象,将返回一个相关请求response对象,
这个应答对象如同一个文件对象,所以你可以在Response中调用.read()。
1 import urllib2 2 req=urllib2.Request(‘http://www.hao123.com‘) 3 response=urllib2.urlopen(req) #返回信息便保存在response对象里面 4 the_page=response.read() 5 print(the_page)
原文:http://www.cnblogs.com/wujiadong2014/p/4926415.html