urllib.requests 请求模块,用于发起网络请求
urllib.parse 解析模块,用于解析URL
urllib.error 异常处理模块,用于处理request引起的异常
urllib.robotparse 用于解析robots.txt文件
第一个参数时url 第二个参数时data 第三个参数是超时时间 !没有请求头headers参数
import re
import json
import urllib3
from urllib import request
?
?
url = "http://httpbin.org/post"
resp = request.urlopen(url=url, data=b"name=YeLan&age=20")
print(resp.read().decode()) # 读取响应返回的数据,并且响应的数据只能读取一次
print(readline()) # 读取一行,可以用循环读取全部
print(resp.info()) # 获取响应头信息
print(resp.geturl()) # 获取访问的url
print(resp.getcode()) # 返回状态码
?
# urlopen默认会发送get请求,当传入data参数时,则会发起POST请求。data参数是字节类型、类文件对象或可迭代对象。
# data参数传输的是bytes类型的数据(一般以键值对的形式),以form表单的形式返回
?
urlopen()方法不能添加请求头的参数headers因此需要更强大的Request对象
通过urllib发送的请求会有一个默认的Headers: “User-Agent”:“Python-urllib/3.6”,指明请求是由urllib发送的。所以遇到一些验证User-Agent的网站时,需要我们自定义Headers把自己伪装起来。
from urllib import request
?
?
url = ‘http://www.jianshu.com‘
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) \
Chrome/73.0.3683.86 Safari/537.36",
"User-Agent": "Python-urllib/3.6" 默认的UA
}
referer = {"Referer": "http://httpbin.org"}
# 如果请求头需要携带referer、content-type等,只需要将其更新至请求头即可
headers.update(referer)
?
req = request.Request(url, headers=headers) # 实例
resp = request.urlopen(req) # 这里的urlopen() 接收一个Request对象也是可以的
?
Handler不同子类处理不同的需求
ProxyHandler 用于设置代理,默认代理为空
HTTPCookieProcessor 用于处理cookies
HTTPRedirectHandler 用于处理重定向
HTTPBasicAuthHandler 用于管理认证,若一个连接打开时需要认证,那么可以用他来解决认证问题
urlopen() 不支持代理、Cookie、https认证(auth); 因此我们需要借助底层的 Handler 处理器对象
from urllib import request
from http import cookiejar
?
# 1.创建一个cookie对象
cookie = cookiejar.CookieJar()
?
# 2.创建一个cookie处理器
handler = request.HTTPCookieProcessor(cookie)
?
# 3.创建Opener对象, 将handler绑定到该对象
opener = request.build_opener(handler)
?
# 4.使用这个opener来发送请求(其实就是携带cookie)
url = ‘http://www.baidu.com‘
resp = opener.open(url)
print(resp.info()) # 第一次请求时返回的响应头包含set-cookie
resp = opener.open(url)
print(resp.info()) # 第二次请求时返回的响应头不包含set-cookie;因为第二次请求时已经绑定了上一次请求的cookie了, 相当于浏览器已经认识你了
?
resp = urlopen(url) # 而用urlopen()无论请求多少次,每次响应的头部都会有set-cookie,说明每次请求都没有携带上次的cookie
print(resp.info) # 与opener.open()方法对比
理解: 原理其实都是通过opener的open()方法发起请求
from urllib.error import URLError
?
url = ‘http://httpbin.org/ip‘
# print(request.urlopen(url).read().decode()) # 该测试网址可以返回我们本机的网址
# {"origin": "123.169.20.111, 123.169.20.111"}
?
# 1.代理地址
proxy = {
‘http‘: ‘221.6.32.206:41816‘,
‘https‘: ‘221.6.32.206:41816‘
}
# 2.创建代理处理器
proxy_handler = request.ProxyHandler(proxy)
# 3.创建opener对象 # 实质都是通过opener发起请求
opener = request.build_opener(proxies)
# 4.发送请求(如果代理ip被封,请求会出现异常)
try:
resp = opener.open(url)
print(resp.read().decode()) # 返回代理ip
except URLError as e:
print(‘请求错误的原因:%s‘ % e.reason)
?
parse模块是一个工具模块,提供了需要对url处理的方法,用于解析url。
url中只能包含ascii字符,在实际操作过程中,get请求通过url传递的参数中会有大量的特殊字符,例如汉字,那么就需要进行url编码。
from urllib import parse, error, robotparser
?
result = parse.quote("ie=UTF-8&wd=爬虫") # quote()只接受str类型 将url进行编码
print(result)
print(parse.unquote("%E7%88%AC%E8%99%AB")) # unquote 对url进行解码(反编码)
?
params = {
"wd": "爬虫",
"username": "YeLan"
}
url = "https://www.baidu.com/s?"
print(url + parse.urlencode(params)) # urlencode()接受字典;对url[url参数]进行编码
param = parse.urlencode(params)
print(parse.parse_qs(param)) # parse_qs()接收字典; 对url进行解码
print(parse.parse_qs(‘wd=%E7%88%AC%E8%99%AB‘))
?
error模块主要负责处理异常,如果请求出现错误,我们可以用error模块进行处理
主要包含URLError和HTTPError
URLError:是error异常模块的基类,由request模块产生的异常都可以用这个类来处理
该异常常用属性: reason 错误的原因
?
HTTPError:是URLError的子类,主要包含三个属性:
Code:请求的状态码
reason:错误的原因
headers:响应的报头
?
该模块的 RobotFileparser(url=‘www.baidu.com/robot.txt‘)用来解析robot文件(了解就行)
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
?
https://www.baidu.com/robots.txt
https://www.taobao.com/robots.txt
?
robots.txt文件是一个文本文件, robots.txt是一个协议,而不是一个命令.
安装: pip install urllib3
urllib3.disable_warnings() 禁用警告信息
import urllib3 url = ‘http://image.baidu.com‘ headers = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36", "Referer":"https://www.baidu.com" } # 实例一个PoolManager对象构造请求。该对象处理了连接池和线程安全的所有细节,所以我们不用自行处理 http = urllib3.PoolManager() # 1. 发送get请求 resp = http.request(‘GET‘, url, headers=headers) print(resp.data.decode("utf-8")) # 解码为文本html # 响应属性 print(resp.data) # 返回的是二进制数据 print(resp.status) # 响应状态码 print(resp.headers) # 响应头 print(resp.getheaders()) # 方法:获取响应头部信息 print(resp.info()) # 方法:响应头部信息 # 2. 发送post请求 form_data = { ‘username‘: ‘yelan‘, ‘password‘: ‘wwxxxx‘ } resp = http.request(‘post‘, ‘http://httpbin.org/post‘, fields=form_data) # fields参数就是post请求提交的数据(form表单) # 3. 大文件下载 # 修改可选参数preload_content=False 以流的形式下载 http = urllib3.PoolManager(headers=headers) # 创建该对象时,就指定headers后续请求都会携带请求头 resp = http.request(‘get‘, http://httpbin.org/bytes/102400, preload_content=False) for chunk in resp.stream(128): # 每次读取128字节 print(chunk) # 4. 文件上传(注意上传文件是二进制数据,使用body参数接收,与提交数据区分) with open(r"../img/img_1.jpg","rb") as fb: binary_data = fb.read() headers.update({‘Content-Type‘:‘image/jpeg‘}) # 上传文件|携带json等需要指定类型 response = http.request("POST", ‘http://httpbin.org/post‘, body=binary_data, headers=headers) print(json.loads(response.data.decode("utf-8")))
method: <str> 请求方法 url: <str> 请求url headers <dict> 请求头 fields <dict> 发送get请求时该参数就是url的参数, 而当发送post请求时,该参数就是提交的数据(如form表单) body <bytes> 发送post请求携带的二进制数据;如请求时携带json数据或者上传文件。 preload_content <bool> 默认为True, 修改为False时以流的形式接收数据。
import urllib3 # 若我们会发送多个请求,那么给每个请求都去写headers=headers这样太重复了;所以可以在创建该对象时,就指定headers,则后续请求都会携带请求头。 http = urllib3.PoolManager(headers=headers) # 1.如果我们GET请求要发送URL参数, 那么怎么发送呢? 那么给fields参数传入包含了URL参数数据的字典即可. resp = http.request("GET", url="https://httpbin.org/get", fields={"name": "jack", "age": "18"}) print(resp.data.decode()) # 2.若POST请求也要携带URL参数, 怎么办呢? 也是fields? 不是!要通过构造URL才发送URL参数.而fields参数是以字典的形式携带的表单数据 url = "https://httpbin.org/post?name=jack&age=18" resp = http.request("POST", url=url, fields=form_data) print(resp.data.decode()) # str类型的键值对即json数据类型 print(json.loads(resp.data.decode())) # json转python字典
url = ‘http://httpbin.org/get‘ pro_host = "http://221.6.32.206:41816" # 1. 创建一个代理对象 proxy = urllib3.ProxyManager(proxy_url=pro_host, headers=headers, proxy_headers=None) # 2. 基于该代理对象发送请求 resp = proxy.request("get", url=url, headers=headers) print(resp.data.decode())
对于post和put请求,如果需要查询参数,需要通过url编码将参数编码成正确格式然后拼接到url中
import urllib3 from urllib import parse args = { "user": "YeLan", "key": "value", } form_data = { "user": "yelan", "pwd": "123456" } args_encoded = parse.urlencode(args) url = ‘http://httpbin.org/post?‘ + args_encoded http = urllib3.PoolManager(headers=headers) resp = http.request("POST", url) print(json.loads(resp.data.decode())["args"]) # 返回的字典是无序的 # Form data :对于put和post请求,需要提供字典类型的参数field来传递form表单数据。 resp = http.request("POST", url=url, fields=form_data) print(json.loads(resp.data.decode())["form"])
请求时携带json数据; 通过body参数携带二进制的json数据,并指定请求头的content_type
data = { "user":"YeLan", "key":"value", "age":"22" } json_data_encoded = json.dumps(data).encode("utf-8") # 将dict转化为json数据再编码 content_type = { ‘Content-Type‘: ‘application/json‘ } headers = header.update(content_type) # 更新头部信息 # JSON 当我们需要发送json数据时,我们需要在request中传入编码后的二进制数据类型的body参数,并指定Content—Type的请求头 url = "http://httpbin.org/post" http = urllib3.PoolManager() resp = http.request("POST", url=url, body=json_data_encoded, headers=headers) print(json.loads(resp.data.decode()))
原文:https://www.cnblogs.com/yelan5222/p/12080243.html