python 爬虫由于网络或代理不能用导致的问题处理方法

时间：2020-05-18 20:30:45 阅读：80 评论：0 收藏：0 [点我收藏+]

平时在爬取某些网页的时候，可能是由于网络不好或者代理池中的代理不能用导致请求失败。此时有们需要重复多次去请求，python中有现成的，相应的包供我们使用：

我们可以利用retry模块进行多次请求，如果全部都失败才报错。当然使用retry库之前也需要先安装,eg:

import requests

from retrying import retry

# 这里的headers使用的是手机版的
m_headers = {
    "User-Agent":"Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1"
}

@ retry(stop_max_attempt_number = 10)  #让被装饰的函数反复执行10次，10次全部报错才会报错， 中间有一次正常就继续往下走
def parse_url1(url):
    response = requests.get(url, headers=m_headers, timeout=5)
    return response.content.decode()

# 真正的url请求函数
def parse_url(url):
    try:
        html_str = parse_url1(url)
    except:
        html_str = None
    return html_str

if __name__ == ‘__main__‘: 
    url = "http://www.baidu.com"
    print(parse_url(url))

原文：https://www.cnblogs.com/lpdeboke/p/12912269.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)