首页 > 其他 > 详细

文件-读取与编码检测

时间:2018-04-14 15:09:05      阅读:269      评论:0      收藏:0      [点我收藏+]

 

文件存放在硬盘是以二进制方式存储,读取出来需要对其根据字符编码表进行转换,python3默认以utf-8编码。

utf8三个字节一个字符,gbk两个字节一个字符

文件读取

以utf-8编码打开gbk存储的文件并读取内容

f=open(file=test.txt,mode=r,encoding=utf-8)
data=f.read()
f.close()
print(data)

file:需打开的文件

mode:打开方式

encoding:打开的编码格式

技术分享图片

以gbk方式打开即可正常读取

f=open(file=test.txt,mode=r,encoding=gbk)
data=f.read()
f.close()
print(data)

技术分享图片

文件编码检测

chardet更具编码规律尝试检测文件编码

import chardet

f=open(test.txt,mode=rb)
data=f.read()
f.close()
result=chardet.detect(data)
print(result)

技术分享图片

confidence:编码可信度

encoding:可能的编码

根据可能的编码格式进行解码(decode)

import chardet

f=open(test.txt,mode=rb)
data=f.read()
f.close()
result=chardet.detect(data)
print(result)
#根据chardet检测出来的编码格式进行解码
print(data.decode(gb2312))

技术分享图片

 

文件-读取与编码检测

原文:https://www.cnblogs.com/yaya625202/p/8831592.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!