潭州课堂25班：Ph201805201 爬虫基础第三课 fidder (课堂笔记)

时间：2018-08-30 10:06:28 阅读：158 评论：0 收藏：0 [点我收藏+]

https://www.cnblogs.com/zhaof/p/6910871.html

Urllib是python内置的HTTP请求库
包括以下模块
urllib.request 请求模块
urllib.error 异常处理模块
urllib.parse url解析模块
urllib.robotparser robots.txt解析模块

我们可以这样认为 urlopen 只有 url 没有参数，那么就是 get 请求，

如果添加data参数就是 post 请求。

get 请求

import urllib.parse
import urllib.request


‘‘‘
urllib.request.urlopen参数的介绍：
urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
‘‘‘
# get 请求
response = urllib.request.urlopen(‘http://www.baidu.com‘)
print(response.read().decode(‘utf-8‘))

post 请求

import urllib.parse
import urllib.request

‘‘‘
urlopen常用的有三个参数，它的参数如下：
urllib.requeset.urlopen(url,data,timeout)
response.read()可以获取到网页的内容，如果没有read()，将返回如下内容
‘‘‘
‘‘‘
通过http://httpbin.org/post  使用urllib
模拟各种请求操作
‘‘‘
# 用 urllib.parse，通过bytes(urllib.parse.urlencode()) 将 post 数据 转换并放到urllib.request.urlopen的data参数中。
# #这样就完成了一次post请求。
data = bytes(urllib.parse.urlencode({‘word‘: ‘hello‘}), encoding=‘utf8‘)
print(data)
response = urllib.request.urlopen(‘http://httpbin.org/post‘, data=data)
print(response.rea

timeout参数的使用

import urllib.parse
import urllib.request


‘‘‘
timeout参数的使用
在某些网络情况不好或者服务器端异常的情况会出现请求慢的情况，或者请求异常，所以这个时候我们需要给
请求设置一个超时时间，而不是让程序一直在等待结果。
‘‘‘
# 设定 timeout 的值，在XX时间嘉应，报个错，
response = urllib.request.urlopen(‘http://httpbin.org/get‘, timeout=0.1)
print(response.read())
#对异常进行抓取，所以将上边代码加个导演处理
try:
    response = urllib.request.urlopen(‘http://httpbin.org/get‘, timeout=0.1)
except urllib.error.URLError as e:
    if isinstance(e.reason, socket.timeout):
        print(‘TIME OUT‘)

潭州课堂25班：Ph201805201 爬虫基础第三课 fidder (课堂笔记)

原文：https://www.cnblogs.com/gdwz922/p/9557982.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

潭州课堂25班：Ph201805201 爬虫基础 第三课 fidder (课堂笔记)

潭州课堂25班：Ph201805201 爬虫基础第三课 fidder (课堂笔记)