首页 > 编程语言 > 详细

Python3的requests类抓取中文页面出现乱码的解决办法

时间:2018-03-03 20:02:27      阅读:209      评论:0      收藏:0      [点我收藏+]

技术分享图片

 

这种乱码现象基本上都是编码造成的,我们要转到我们想要的编码,先po一个知识点,嵩天老师在Python网络爬虫与信息提取说到过的:response.encoding是指从HTTP的header中猜测的响应内容编码方式,如果header中不存在charset,则默认编码为ISO-8859-1 ,这样一来某些不规范的服务器返回就必然乱码了;response.apparent_encoding是指从内容中分析出的响应内容编码方式。requests内部的 utils 也提供了一个从返回 body 获取页面编码的函数get_encodings_from_content,这样如果服务器返回的头不含 Charset,再通过 get_encodings_from_content 就可以知道页面的正确编码了。下面是调试的过程:

import requests
from requests.exceptions import RequestException

def get_one_page(url):
    try:
        response=requests.get(url)
        if response.status_code == 200:
            #print(response.text)
            print(response.encoding)
            print(response.apparent_encoding)
            r=response.text
            print(requests.utils.get_encodings_from_content(r)[0])
            a=r.encode(ISO-8859-1).decode(requests.utils.get_encodings_from_content(r)[0])
            print(a)
            print(------------------------------------)
            b = r.encode(ISO-8859-1).decode(response.apparent_encoding)
            print(b)
        return None
    except RequestException:
        return None

def main():
    url = http://www.mh160.com/
    get_one_page(url)

if __name__==__main__:
        main()

 

看图!看图!看图!


技术分享图片

Python3的requests类抓取中文页面出现乱码的解决办法

原文:https://www.cnblogs.com/zhouxinfei/p/8502651.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!