首页 > 编程语言 > 详细

python开源项目Scrapy抓取文件乱码解决

时间:2015-04-17 13:24:48      阅读:1017      评论:0      收藏:0      [点我收藏+]

scrapy进行页面抓去的时候,保存的文件出现乱码,经过分析是编码的原因,只需要把编码转换为utf-8即可,代码片段

......
import chardet
......
        content_type = chardet.detect(html_content)
        #print(content_type[‘encoding‘])
        if content_type[‘encoding‘] != "UTF-8":
            html_content = html_content.decode(content_type[‘encoding‘])
        html_content = html_content.encode("utf-8")
        open(filename,"wb").write(html_content)
....
这样保存的文件就是中文了。
步骤:
先把gb2312的编码转换为unicode编码
然后在把unicode编码转换为utf-8.

python开源项目Scrapy抓取文件乱码解决

原文:http://www.cnblogs.com/Byrd/p/4434463.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!