首页 > Web开发 > 详细

pyspider爬网页出现中文乱码的解决办法

时间:2019-04-26 13:20:43      阅读:228      评论:0      收藏:0      [点我收藏+]

为什么会出现乱码呢?按照binux的说法

这就是 lxml 的蛋疼之处,给它 unicode 它有的时候它不认,给它 bytes 它又处理不好

方法1:

response.content = (response.content).decode(‘utf-8‘) #目标站是 utf-8 编码

方法2:

response.content = response.content.decode(‘gbk‘, errors=‘ignore‘)#目标站是gbk

方法3:(binux的方案)

import pyquery
doc = pyquery.PyQuery(response.text)

方案3的好处是,不必知道源站编码,而直接由pyquery来接管。

 

pyspider爬网页出现中文乱码的解决办法

原文:https://www.cnblogs.com/alpiny/p/10773701.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!