首页 > 其他 > 详细

pandas读取csv文件中文乱码问题

时间:2019-11-28 20:54:11      阅读:2104      评论:0      收藏:0      [点我收藏+]

1、为什么会出现乱码问题,用什么方式编码就用什么方式解码,由于csv不是用的utf-8编码,故不能用它解码。

常用的编码方式有 utf-8,ISO-8859-1、GB18030等。

 

2、中文乱码原因:

一般的csv文件如果使用 data = pd.read_csv("data__361_46.csv", encoding=‘utf-8‘)读数据:

报错如下:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xb3 in position 0: invalid start byte

若此时改为:data = pd.read_csv(‘sample.csv‘, encoding=‘ISO-8859-1‘)

此时不再报错,但是中文字符解析异常,出现下列错误:

技术分享图片

 

 3、有两种解决办法:

(1)用记事本打开csv文件,另存为,编码格式改为utf-8然后用utf-8读取文件。

(2)用 csv编码的 “GB18030” 解码方式读取文件。

另外,由于python不支持中文,故一般在所有python代码开头第一行加上#coding=utf-8 

pandas读取csv文件中文乱码问题

原文:https://www.cnblogs.com/simpleDi/p/11953634.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!