编码问题

时间：2014-03-28 10:35:04 阅读：507 评论：0 收藏：0 [点我收藏+]

今天去听同事的网络爬虫的技术讲座。鄙人虽然不才也写过爬虫，也曾被一个点困扰过，就是处理汉字编码，于是就提了出来，这哥们回答的也挺好。

首先是是使用python的库char进行检测，先转成unicode,最后转成utf8格式，系统内部处理一律以utf8进行处理。

进行检测我可以理解，内部一律以utf8我也可以理解，但是我很奇怪为什么转两次？为什么不直接转？

同事回答：是因为unicode包含（或者对应？）utf8和gbk等多种编码，所以先转成unicode再转utf8的成功性会大很多，直接转有可能转不过去

似乎很有道理，不过我想我需要查清楚

原文：http://www.cnblogs.com/code-style/p/3628873.html

踩

(0)

评论一句话评论（0）

分享档案

更多>