Python爬虫入门三之Urllib库的基本使用

时间：2017-08-17 09:22:43 阅读：241 评论：0 收藏：0 [点我收藏+]

1.分分钟扒一个网页下来怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HTML中的，下面我们就写个例子来扒一个网页下来。 import urllib2 response = urllib2.urlopen("http://www.baidu.com") print response.read() 1 2 3 4 import urllib2 response = urllib2.urlopen("http://www.baidu.com") print response.read() 是的你没看错，真正的程序就两行，把它保存成 demo.py，进入该文件的目录，执行如下命令查看运行结果，感受一下。 python demo.py 1 python demo.py 2015-02-13 00:09:09 的屏幕截图看，这个网页的源码已经被我们扒下来了，是不是很酸爽？ 2.分析扒网页的方法那么我们来分析这两行代码，第一行 response = urllib2.urlopen("http://www.baidu.com") 1 response = urllib2.urlopen("http://www.baidu.com") 首先我们调用的是urllib2库里面的urlopen方法，传入一个URL，这个网址是百度首页，协议是HTTP协议，当然你也可以把HTTP换做FTP,FILE,HTTPS 等等，只是代表了一种访问控制协议，urlopen一般接受三个参数，它的参数如下： urlopen(url, data, timeout) 1 urlopen(url, data, timeout) 第一个参数url即为URL，第二个参数data是访问URL时要传送的数据，第三个timeout是设置超时时间。第二三个参数是可以不传送的，data默认为空None，timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT 第一个参数URL是必须要传送的，在这个例子里面我们传送了百度的URL，执行urlopen方法之后，返回一个response对象，返回信息便保存在这里面。 print response.read() 1 print response.read() response对象有一个read方法，可以返回获取到的网页内容。如果不加read直接打印会是什么？答案如下：

原文：http://www.cnblogs.com/1011sh/p/7379643.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)