首页 > 编程语言 > 详细

Python编码

时间:2019-12-29 11:56:53      阅读:75      评论:0      收藏:0      [点我收藏+]

1.单个国家的编码

  • ASCII:美国,占1个字节,只支持英文
  • GB2312:中国,占2个字节,支持6700+汉字
  • GBK GB2312的升级版,支持21000+汉字
  • Shift-JIS :日本字符
  • ks_c_5601-1987:韩国编码
  • TIS-620: 泰国编码
ascii编码(美国):
    l   0b1101100
    o   0b1101111
    v   0b1110110
    e   0b1100101
GBK编码(中国):
    老   0b11000000 0b11001111
    男   0b11000100 0b11010000
    孩   0b10111010 0b10100010
 
Shift_JIS编码(日本):
    私   0b10001110 0b10000100
    は   0b10000010 0b11001101
 
ks_c_5601-1987编码(韩国):
    ?   0b10110011 0b10101010
    ?   0b10110100 0b11000010
     
TIS-620编码(泰国):
    ???  0b10101001 0b11010001 0b10111001
...

2.全球编码

  • Unicode:2-4字节 已经收录136690个字符,并还在一直不断扩张中。

  Unicode解决了字符和二进制的对应关系,但是使用unicode表示一个字符,太浪费空间。例如:利用unicode表示“Python”需要12个字节才能表示,比原来ASCII表示增加了1倍。

  为了解决存储和网络传输的问题,出现了Unicode Transformation Format,学术名UTF,即:对unicode中的进行转换,以便于在存储和网络传输时可以节省空间!

  • UTF-8: 使用1、2、3、4个字节表示所有字符;优先使用1个字符、无法满足则使增加一个字节,最多4个字节。英文占1个字节、欧洲语系占2个、东亚占3个,其它及特殊字符占4个
  • UTF-16: 使用2、4个字节表示所有字符;优先使用2个字节,否则使用4个字节表示。
  • UTF-32: 使用4个字节表示所有字符;

UTF 是为unicode编码 设计 的一种 在存储 和传输时节省空间的编码方案。

  由于所有的系统、编程语言都默认支持unicode,那你的gbk软件放到美国电脑 上,加载到内存里,变成了unicode,中文就可以正常展示了。

unicode与gbk的映射表: http://www.unicode.org/charts/ 

 

 

 

 

参考文献:

【1】python 之路,致那些年,我们依然没搞明白的编码 - 金角大王 - 博客园

Python编码

原文:https://www.cnblogs.com/nxf-rabbit75/p/12114418.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!