首页 > 编程语言 > 详细

【python】网页中字符编码转换 unicode-escape

时间:2015-08-19 20:33:54      阅读:1823      评论:0      收藏:0      [点我收藏+]

有的时候我们用python来抓取网页会得到类似 ‘\\u003C\\u0066\\u0072\\u006F\\u006D\\u003E‘ 或者 ‘%u003c%u0062%u0072%u003e%u003c%u0064%u0069%u0076%u0020%u0063%u006c......‘ 那么应该怎么处理呢?

这种情况就是把 unicode直接输出到文本中了,现在需要把它还原回去。

解决

In [23]: s1
Out[23]: ‘\\u003C\\u0066\\u0072\\u006F\\u006D\\u003E‘

In [24]: s2
Out[24]: ‘%u003c%u0062%u0072%u003e%u003c%u0064%u0069%u0076%u0020%u0063%u006c......‘

In [25]: print s1.decode(‘unicode-escape‘)
<from>

In [26]: print s2.replace("%", "\\").decode(‘unicode-escape‘)
<br><div cl......

版权声明:本文为orangleliu(http://blog.csdn.net/orangleliu/)原创文章,文章转载请声明。

【python】网页中字符编码转换 unicode-escape

原文:http://blog.csdn.net/orangleliu/article/details/47784633

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!