首页 > 其他 > 详细

初级爬虫第三天

时间:2019-05-09 16:35:38      阅读:230      评论:0      收藏:0      [点我收藏+]

主要内容:

  • 付费IP的使用方式
  • Auth认证
  • cookie登录验证
  • requests模块

 一、付费IP使用方式:

1.1 无论是免费IP还是付费IP,在使用之前,都需要测试一下,如果好使,再去使用IP爬取数据。

1.2 IP池:列表套字典

eg:[{"https": "IP1:端口1"}, {"http": "IP2: 端口2"}, {"https": "IP3: 端口3"}]

1.3 遍历IP池,利用遍历出来的IP创建IP处理器,再利用处理创建发送网络请求的opener对象

1.4 opener.open()中有一个参数timeout=x,即:x秒之后如果程序还没有反应,就算做超时,报超时,x默认为30

1.5 利用异常处理IP值不好用的报错或者超时

代码:

 1 import urllib.request
 2 
 3 爬取百度首页"https://www.baidu.com/"
 4 def proxy_user():
 5     #1.目标网页URL
 6     url = "https://www.baidu.com/"
 7     #2. User-Agent
 8     user_agent = ["Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"]
 9     request = urllib.request.Request(url)
10     request.add_header("User-Agent", user_agent[0])
11     #3. 代理IP池
12     #3.1 创建代理IP池
13     #IP池结构是:列表套字典
14     proxy_ip_list = [{"HTTP": "58.253.152.23:9999"}, {"HTTP": "112.87.68.242:9999"}, {"HTTP": "60.13.42.99:9999"}]
15     #3.2 遍历IP
16     for choose__proxy_ip in proxy_ip_list:
17         #3.3 利用遍历出来的IP创建IP处理器
18         proxy_ip_handler = urllib.request.ProxyHandler(choose__proxy_ip)
19         #3.4 利用处理器创建opener对象
20         opener = urllib.request.build_opener(proxy_ip_handler)
21         #3.5 发送网络请求
22         #利用异常处理+timeout参数,处理IP失效问题
23         #如果IP使用异常,或者超过timeout设置时间,
24         #则抛出异常,暂停使用当前IP,接着使用下一个IP
25         try:
26             #使用opener.open()发送网络请求,
27             #超时参数timeout设置为10,超过10秒未响应,视为超时
28             response = opener.open(request, timeout = 10)
29         except Exception as e:
30             #如果IP使用异常,或者超时,打印异常信息
31             print(e)
32             
33 
34 proxy_user()

 技术分享图片

查看结果,发现当上一个IP不好用时,程序会自动使用下一个IP

 

2. 付费IP的两种写法:

2.1 写法1:发送付费的代理IP请求

(1)创建代理IP池

(2)创建handler处理器

(3)创建opener对象

(4)发送网络请求

注意:付费代理IP需要有:1. 购买时的用户名 2. 购买时的密码

代理IP池结构:列表套字典

其中字典结构:{"协议类型": "username: password@IP地址:端口号"}

 1 import urllib.request
 2 
 3 #付费代理IP第一种写法:
 4 def money_proxy_user():
 5     #url = "http://www.baidu.com/"
 6     
 7     #1. IP池
 8     #结构:{"http/https": "username:pwd@IP:端口号"}
 9     money_proxy_list = [{"http": "abc:123@58.253.152.23:9999"}, 
10                         {"http": "abc:123@112.87.68.242:9999"}, 
11                         {"http": "abc:123@60.13.42.99:9999"}]
12     #遍历IP
13     for proxy_ip in money_proxy_list:
14         #2. 创建代理IP处理器handler
15         ProxyHandler = urllib.request.ProxyHandler(proxy_ip)
16         #3. 创建opener对象
17         opener = urllib.request.build_open(ProxyHandler)
18         #4. 发送网络请求
19         response = opener.open(url)                

 

 

2.2 付费IP第二种写法:使用密码管理器(推荐)

(1)创建IP池

(2)创建密码管理器

(3)向密码管理器中,添加用户名和密码

(4)创建处理器

(5)创建opener对象

(6)opener对象发送网络请求

 

 1 import urllib.request
 2 
 3 #付费代理IP第二种写法:
 4 def money_proxy_user():
 5     url = "http://www.baidu.com/"
 6     
 7     #1. 创建IP池
 8     #结构:{"http/https": "IP值:端口号"}
 9     money_proxy_list = [{"http": "58.253.152.23:9999"}, 
10                         {"http": "112.87.68.242:9999"}, 
11                         {"http": "60.13.42.99:9999"}]
12     #遍历IP
13     for proxy_ip in money_proxy_list:
14         #2. 创建密码管理器
15         #密码管理器需要购买IP的用户名和密码
16         user_name = "abc"
17         password = "123"
18         pass_word_manager = urllib.request.HTTPPasswordMgrWithDefaultRealm()
19         #3. 向密码管理器添加用户名和密码
20         pass_word_manager.add_password(None, proxy_ip, user_name, password)
21         #4. 创建handler处理器
22         money_proxy_handler = urllib.request.ProxyBasicAuthHandler(pass_word_manager)
23         #5. 创建opener对象
24         opener =urllib.request.build_opener(money_proxy_handler)
25         #6. 发送请求
26         response = opener.open(url)
27         

 

 

 

 

注意:

1. 密码管理器对象,添加用户名和密码的方法:‘

add_password(Realm, uri, user_name, password)

第一个参数realm是与远程服务器相关的域信息,一般没人管它都是写None

参数uri:填写代理IP!!!

user_name:付费IP用户名

password:付费IP密码

2. 本方式中,如果程序中提供的代理IP全部都不能使用,程序会使用本地IP

 

 

二、Auth认证:

使用范围:

(1)爬取公司内网数据

(2)通过第三方认证的方式(如:微信账号登录),进行爬取

方法:使用密码管理器

 

代码:

 1 import urllib.request
 2 
 3 def auth_user():
 4     #1. 给出内网账号和密码
 5     user_name = "abc"
 6     pwd = "123"
 7     #2. 内网的URL地址
 8     nei_url = "xxx"
 9     
10     #3. 创建密码管理器
11     pwd_manager = urllib.request.HTTPPasswordMgrWithDefaultRealm()
12     #4. 向密码管理器中,添加用户名和密码
13     #注意此时,add_password()的第二个参数要访问的目标网页URL地址
14     pwd_manager.add_password(None, nei_url, user_name, pwd)
15     
16     #5. 创建处理器Handler
17     auth_handler = urllib.request.HTTPBasicAuthHandler(pwd_manager)
18     #6. 创建opener对象
19     opener = urllib.request.build_opener(auth_handler)
20     
21     #7. 发送网络请求:
22     response = opener.open(nei_url)

 

2.5:SSL爬虫报错:SSL: CERTIFICATE_VERIFY_FAILED

当使用urllib.request.urlopen()向https网页发送网络请求时,有时会报这个错误:

urllib2.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:581)

 

解决方法:导入ssl模块和如下代码,即可解决

1 import ssl
2 
3 ssl._create_default_https_context = ssl._create_unverified_context

 

 

 

三、Cookie与登录信息:

目标:爬取药智网的会员中心页面数据

URL:https://www.yaozh.com/member/

目标网页截图:

技术分享图片

 

 

3.1  第一次爬取:

 1 import urllib.request
 2 import ssl
 3 
 4 #忽略SSL验证
 5  ssl._create_default_https_context = ssl._create_unverified_context
 6 
 7 #1. 目标网页URL
 8 url = "https://www.yaozh.com/member/"
 9 
10 #2. User-Agent
11 #2.1 创建request对象
12 request = urllib.request.Request(url)
13 #2.2 User-Agent池
14 user_agent_headers = ["Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"]
15 #2.3 向request对象添加User-Agent
16 request.add_header("User-Agent", user_agent_headers[0])
17 
18 #也可以直接在创建request对象时,添加User-Agent
19 #request = urllib.request.Request(url, headers=user_agent_headers[0])
20 
21 
22 #3. 代理IP
23 #3.1 代理IP池
24 proxy_ip = {"https": "60.13.42.101:9999"}
25 #3.2 创建自定义处理器handler
26 proxy_handler = urllib.request.ProxyHandler(proxy_ip)
27 #3.3 创建自定义opener对象
28 opener = urllib.request.build_opener(proxy_handler)
29 
30 
31 #4. 发送网络请求
32 response = opener.open(request)
33 
34 #5. 读取返回的数据
35 data = response.read().decode(utf-8)
36 
37 #6. 数据持久化
38 with open("yaozh01.html", w, encoding=utf-8) as f:
39     f.write(data)

 

得到结果:

技术分享图片

结果,个人中心页面未登录

——(1)原因:登录需要账号信息:用户名和密码

但是,爬虫代码中,没有这两个信息

 

——(2)解决方法:向请求头中,添加cookie

因为,所有的个人信息,包括:账号和密码都保存在cookie中。

一旦用户登录成功,其账号和密码就会自动保存在cookie中。

而cookie位于请求头中。

 

——(3)所以,我们需要先登录成功一次,获取cookie,然后,将cookie添加到请求头中。这样,以后爬虫代码发送网络请求登录时,就可以自动使用第一次登陆成功后,保存下来的cookie,使用它里面的账号信息。

 

3.2 方式1:手动获取添加cookie:

(1)手动登录账号,进入个人中心页面

(2)f12,进入network,查看请求头request_headers

技术分享图片

 

(3)如图所示,将cookie后面的所有信息全部复制粘贴,添加进请求头

(4)发送网络请求

 1 import urllib.request
 2 import ssl
 3 
 4 
 5 #爬取药智网会员中心界面
 6 #"https://www.yaozh.com/member/"
 7 
 8 #忽略SSL验证
 9 ssl._create_default_https_context = ssl._create_unverified_context
10 
11 #1. 目标网页URL
12 url = "https://www.yaozh.com/member/"
13 
14 #2. 请求头信息
15 #User-Agent、Cookie
16 #手动填写用户名和密码,进行登录,登陆成功之后,在会员中心页面,f12查看请求头信息,复制User-Agent和Cookie信息
17 user_agent = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36",
18               "Cookie": "acw_tc=2f624a1c15572983332095835e56ab374f19bbfa04320ed34624c8cb736211; PHPSESSID=db04icmo08qlth57e283e1jug6; Hm_lvt_65968db3ac154c3089d7f9a4cbb98c94=1557298333; MEIQIA_VISIT_ID=1KwMiirKV6lBEDTorlxXFpIQYZ2; MEIQIA_EXTRA_TRACK_ID=1KwMiirgbfupj7bs3kZzgBM0zWb; Hm_lpvt_65968db3ac154c3089d7f9a4cbb98c94=1557298612; yaozh_logintime=1557298624; yaozh_user=743973%09wtf1234; yaozh_userId=743973; db_w_auth=666998%09wtf1234; UtzD_f52b_saltkey=NQ3FQNjM; UtzD_f52b_lastvisit=1557295025; UtzD_f52b_lastact=1557298625%09uc.php%09; UtzD_f52b_auth=760dhxbJO6R21izVhpr2PAlqsjjpHEtuxu9QWpf%2FdzfvGFnBP6V66TEdhcVOWltYjPEmVh4tVSLLQTPKM12K%2BlK55Ls; yaozh_uidhas=1; yaozh_mylogin=1557298627; acw_tc=2f624a1c15572983332095835e56ab374f19bbfa04320ed34624c8cb736211; MEIQIA_VISIT_ID=1KwMiirKV6lBEDTorlxXFpIQYZ2; MEIQIA_EXTRA_TRACK_ID=1KwMiirgbfupj7bs3kZzgBM0zWb"
19               }
20 #2.2 创建request对象,并添加User-Agent
21 request = urllib.request.Request(url, headers=user_agent)
22 
23 
24 #3. 代理IP
25 #3.1 代理IP,IP池
26 proxy_ip = {"https": "115.159.155.60:8118"}
27 #3.2 创建自定义处理器对象handler
28 proxy_handler = urllib.request.ProxyHandler(proxy_ip)
29 #3.3 创建自定义opener对象
30 opener = urllib.request.build_opener(proxy_handler)
31 
32 
33 #4. 发送网络请求,登录
34 response = opener.open(request)
35 #5. 读取返回数据
36 data = response.read().decode(utf-8)
37 
38 #6. 数据持久化
39 with open("yaozhi02.html", "w", encoding=utf-8) as f:
40     f.write(data)

 

 

 结果:

技术分享图片

可以看到,在本机启动的网页会员中心,这次有了用户名,说明登录成功。

———手动获取cookie的缺点:(1)麻烦;(2)获取的cookie有时效性

 

3.3 方式2:使用代码自动获取cookie(重点)

目标:自动获取(登陆后的)会员中心页面

难点:获取cookie,即:获取登录所需用户名和密码。由于在登录成功之后,Cookie会被自动保存,所以,要想获取Cookie,先要登录成功。

登录页面login和会员中心页面member是两个不同的页面,所以需要我们现在login页面登录成功,然后拿着cookie,去请求member页面

步骤:

(1)自动登录(但需要自己手动设置用户名和密码),登录成功之后,会自动保存Cookie

(2)代码自动获取Cookie

(3)带着cookie,代码请求会员中心页面,获取会员中心数据

———————————分割线—————————————————————

(1)为了能让程序自动登录,我们需要查看,登录过程中,浏览器都向服务器提交了哪些数据

由于登录过程为:

  1. 浏览器向服务器提交登录数据
  2. 服务器验证数据
  3. 服务器向浏览器发送新的跳转页面的链接
  4. 浏览器按照跳转页面的链接,向服务器重新发送请求

所以,在登录页面,点击“登录”按钮之后,页面会跳转到新的页面。此时浏览器network抓取到的数据,是第4步:浏览器向服务器按照跳转页面URL,向服务器发送请求时,的数据;而不是第1步:浏览器向服务器提交的登录数据。因为谷歌浏览器会只保留最新一次请求的数据,而将之前的请求抹除了。

技术分享图片

技术分享图片

所以,在f12的network中,点击preserve log按钮,这样浏览器就会保留之前发送过的请求日志。

 

技术分享图片

 

 

 

点击preserve log按钮,在https://www.yaozh.com/login/操作登录,发现浏览器进行登录时,发送的是一个叫做“login”的网络请求。

点击login请求,发现:(1)login发送的是POST请求!!!;(2)Form Data:Form Data为需要发送POST请求时,要发送的参数

技术分享图片 

 1 import urllib.request
 2 import urllib.parse
 3 import http.cookiejar
 4 import ssl
 5 
 6 #忽略SSL验证
 7 ssl._create_default_https_context = ssl._create_unverified_context
 8 
 9 #目标:爬取会员中心网页
10 
11 #1. 会员登录,获取cookie
12 #1.1 登录网页URL
13 login_url = "https://www.yaozh.com/login/"
14 
15 #1.2 请求头信息User-Agent
16 user_agent = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"}
17 
18 #1.3 构造请求参数
19 #构造POST请求参数,格式必须是字典
20 #发现登录请求中,发送的是POST请求,POST请求有请求参数
21 #POST请求中需要用到的参数:位于浏览器请求头的Form Data中,将其中的数据全部复制下来
22 """
23 username: wtf1234
24 pwd: 123456
25 formhash: 3210139E64
26 backurl: https%3A%2F%2Fwww.yaozh.com%2F
27 """
28 login_request_data = {"username": "wtf1234",
29                       "pwd": "123456",
30                       "formhash": "3210139E64",
31                       "backurl": "https%3A%2F%2Fwww.yaozh.com%2F"}
32 
33 
34 #1.4 转换POST请求参数格式
35 #POST请求中,上传的请求参数必须是2进制格式
36 login_request_data_bytes = urllib.parse.urlencode(login_request_data).encode("utf-8")
37 
38 #1.5 向request对象中,添加URL地址、User-Agent、POST请求参数
39 #get请求中,参数拼接到URL地址中;POST请求中,Request对象里面专门有个data参数,用于接收POST请求参数
40 login_request = urllib.request.Request(login_url, headers=user_agent, data=login_request_data_bytes)
41 
42 #1.6 构造CookieJar对象——用于保存管理cookie
43 my_cookiejar = http.cookiejar.CookieJar()
44 
45 #1.7 构造自定义的可以添加cookie的处理器handler
46 #handler处理器的参数是构造的cookiejar对象
47 #因为urlopen()中不能添加cookie,所以我们需要找一个能添加cookie的处理器,然后再创建opener,再发送网络请求
48 cookie_handler = urllib.request.HTTPCookieProcessor(my_cookiejar)
49 
50 #1.8 使用处理器handler对象,构造自定义opener对象
51 opener = urllib.request.build_opener(cookie_handler)
52 
53 #1.9 使用opener对象,发送网络请求
54 #此时的login_request,既包含请求头信息,又包含请求参数
55 #此时,如果请求发送成功,则cookiejar对象会自动将cookie信息保存到opener对象中
56 opener.open(login_request)      #由于我们这里只是为了登录成功,获取cookie,所以不需要response对象接收返回数据
57 
58 
59 #2. 使用cookie,访问会员中心网页
60 #2.1 会员中心URL
61 member_url = "https://www.yaozh.com/member/"
62 
63 #2.2 构造请求头,添加User-Agent信息
64 user_agent2 = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"}
65 member_request = urllib.request.Request(member_url, headers=user_agent2)
66 
67 #2.3 拿着刚才获得的cookie,发送网络请求
68 #由于opener对象中已经保存有cookie信息,所以直接用opener对象发送网络请求即可
69 response = opener.open(member_request)
70 
71 #3. 读取数据
72 data = response.read().decode("utf-8")
73 
74 #4. 持久化
75 with open("yaozhi_day03.html", w, encoding=utf-8) as f:
76     f.write(data)

 

 爬取结果:技术分享图片

 

注:目前为止学过的反爬机制:

(1)User-Agent:模拟真实用户

同一个浏览器,短时间内频繁访问,反爬

(2)IP地址:

同一个IP地址,短时间内频繁访问,反爬

(3)账号:

同一个账号,短时间内在不同地点(使用不同IP地址)访问,反爬

 

三、初学requests模块:

理论:

(1)requests模块为第三方模块

(2)使用方法:import requests     注意末尾多一个s

(3)优点:

  • 简单易用
  • URL会自动转译
  • python2、python3的方法名字一样
  • 有官方中文文档

 

 1 import requests
 2 
 3 #爬取百度首页"https://www.baidu.com/"
 4 
 5 #1. 目标网页URL
 6 url = "https://www.baidu.com/"
 7 
 8 #2. 发送get请求
 9 response = requests.get(url)
10 #返回的response为状态码
11 
12 #3.解析数据
13 #3.1 方式1:使用content属性解析,返回的是2进制数据
14 data = response.content.decode(utf-8)
15 
16 #3.2 方式2:使用text属性解析,返回的是字符串格式数据
17 str_data = response.text
18 #但是不建议,使用此种方式解析数据,因为text内部,将2进制数据转换为字符串格式,靠猜。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

初级爬虫第三天

原文:https://www.cnblogs.com/tommyngx/p/10830178.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!