Python requests 获取网页一般的方法

时间：2020-02-18 18:45:39 阅读：55 评论：0 收藏：0 [点我收藏+]

主要记录使用 requests 模块获取网页源码的方法

class Crawler(object):
    """
    采集类
    """
    def __init__(self, base_url):
        self._base_url = base_url
        self._cookie = None
        self._getCookie()

    def _getCookie(self):
        """
        获取站点cookie
        :return:
        """
        try:
            res = requests.get(self._base_url)
            res.raise_for_status()
            # TODO response.cookies获取到的是一个cookiejar对象，需要使用requests.utils.dict_from_cookiejar来
            # TODO 将cookiejar对象转换为一个字典，这个字典后续使用的时候，在请求时直接传入就可以了，
            # 如? requests.get(url, cookies=cookies)
            self._cookie = requests.utils.dict_from_cookiejar(res.cookies)
            print self._cookie
        except Exception as e:
            print e

    def get_html_text(self, url, **kwargs):
        """
        爬取网页的通用代码框架
        :param url:
        :param method:
        :param kwargs:
        :return:
        """
        try:
            kwargs.setdefault('cookies', self._cookie)
            res = requests.get(url, **kwargs)
            # TODO 若响应状态码不是200, 抛出 HTTPError 异常
            res.raise_for_status()
            res.encoding = res.apparent_encoding
            # print requests.utils.dict_from_cookiejar(res.cookies)
            return res.text
        except Exception as e:
            print traceback.print_exc()
            return

原文：https://www.cnblogs.com/gaozhidao/p/12327359.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)