0)学习笔记:
我们常说的这句话“Unicode字符是2个字节”这句话有毛病
Unicode目前规划的总空间有17个平面, 0x0000---0x10FFFF,每个平面有 65536 个码点.
Unicode支持的字符上限是65536个 这句话也是有问题的,这65536个字符是我们最常用的基本字符,但是还有很多字符是在0x0000--0xFFFF之外的
unicode存储在计算机内存里肯定是需要编码的,那么就有UTF-8,UTF-16,UTF-32等编码方案。
每种编码方式有自己的特点,不同范围内的字符用不同的编码方式存储所需的字节数是不一样的。
1)
UTF-8具体的表现形式为:
2)
下面两种编码方式还没研究
UTF-16
UTF-32
原文:https://www.cnblogs.com/baxianhua/p/10608140.html