首页 > 其他 > 详细

潭州课堂25班:Ph201805201 爬虫基础 第三课 fidder (课堂笔记)

时间:2018-08-30 10:06:28      阅读:155      评论:0      收藏:0      [点我收藏+]

https://www.cnblogs.com/zhaof/p/6910871.html

 

Urllib是python内置的HTTP请求库
包括以下模块
urllib.request 请求模块
urllib.error 异常处理模块
urllib.parse url解析模块
urllib.robotparser robots.txt解析模块

我们可以这样认为  urlopen 只有 url 没有参数,那么就是 get 请求,

如果添加data参数就是 post 请求。

 

get 请求

import urllib.parse
import urllib.request


‘‘‘
urllib.request.urlopen参数的介绍:
urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
‘‘‘
# get 请求
response = urllib.request.urlopen(‘http://www.baidu.com‘)
print(response.read().decode(‘utf-8‘))

  

 post 请求

import urllib.parse
import urllib.request

‘‘‘
urlopen常用的有三个参数,它的参数如下:
urllib.requeset.urlopen(url,data,timeout)
response.read()可以获取到网页的内容,如果没有read(),将返回如下内容
‘‘‘
‘‘‘
通过http://httpbin.org/post  使用urllib
模拟各种请求操作
‘‘‘
# 用 urllib.parse,通过bytes(urllib.parse.urlencode()) 将 post 数据 转换并放到urllib.request.urlopen的data参数中。
# #这样就完成了一次post请求。
data = bytes(urllib.parse.urlencode({‘word‘: ‘hello‘}), encoding=‘utf8‘)
print(data)
response = urllib.request.urlopen(‘http://httpbin.org/post‘, data=data)
print(response.rea

  

 

timeout参数的使用
import urllib.parse
import urllib.request


‘‘‘
timeout参数的使用
在某些网络情况不好或者服务器端异常的情况会出现请求慢的情况,或者请求异常,所以这个时候我们需要给
请求设置一个超时时间,而不是让程序一直在等待结果。
‘‘‘
# 设定 timeout 的值,在XX时间嘉应,报个错,
response = urllib.request.urlopen(‘http://httpbin.org/get‘, timeout=0.1)
print(response.read())
#对异常进行抓取,所以将上边代码加个导演处理
try:
    response = urllib.request.urlopen(‘http://httpbin.org/get‘, timeout=0.1)
except urllib.error.URLError as e:
    if isinstance(e.reason, socket.timeout):
        print(‘TIME OUT‘)

  

 

潭州课堂25班:Ph201805201 爬虫基础 第三课 fidder (课堂笔记)

原文:https://www.cnblogs.com/gdwz922/p/9557982.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!