首页 > 其他 > 详细

Requests库第一周学习

时间:2017-03-16 03:11:47      阅读:510      评论:0      收藏:0      [点我收藏+]

通过pip安装Requests库后就可以进行爬虫了

 

Requests库的7个主要方法如下:

技术分享

 

 

Response对象的属性:
技术分享

 

Requests库的异常:

技术分享

 

 

 HTTP协议对资源的操作,分别对应Requests库的6个方法:

 技术分享

request中12个参数的的功能:

params:字典或字节序列,作为参数增加到url中

data    :字典、字节序列或文件对象,作为Request的内容

json    :JSON格式的数据,作为Request的内容

headers:字典,HTTP定制头

cookies :字典或CookieJar,Request中的cookie

auth     :元祖,支持HTTP认证功能

files      :字典类型,传输文件

timeout :设定超时时间,秒为单位

proxies :字典类型,设定访问代理服务器,可以增加登录认证

allow_redirects:True/False,默认为True,重定向开关

stream  :True/False,默认为True,获取内容立即下载开关

verify    :True/False,默认为True,认证SSL证书开关

cert      :本地SSL证书路径

 

下面介绍一些常用参数的用法:

 

 

Requests库的head()方法使用:

技术分享

 

Requests库的host()方法使用:

技术分享

 

技术分享

 

Requests库的put()方法使用:

 

技术分享

 

 

 params参数的使用:

技术分享

 

 data参数的使用:

技术分享

 

json参数的使用:

技术分享

 

 headers参数的使用:

技术分享

files参数的使用:

技术分享

 

timeout参数的使用:

技术分享

 

proxies参数的使用:

技术分享

 

下面写一个通用爬虫代码:

 

 1 import requests
 2 
 3 def getHTMLText(url):
 4     try:
 5         r = requests.get(url, timeout=30)
 6         r.raise_for_status()
 7         r.encoding = r.apparent_encoding
 8         return r.text
 9     except:
10         return "产生异常"
11 
12 if __name__ == "__main__":
13     url = "http://www.baidu.com"
14     print(getHTMLText(url))

 

Requests库第一周学习

原文:http://www.cnblogs.com/xingkongyihao/p/6556996.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!