Unicode是一个字符集,包含世界各个国家的各个文字的二级制代码
UTF-8,和UTF-16,是Unicode的实现方式,一个文字的Unicode码长度可以为1,2,4个字节,一个汉字2个字节不够时使用4个字节。
utf16:一个存储单位16bit,也就是2个字节,无符号整数,一个汉字可能占用不同个存储单元 。
比如,A:41 00,中:2d 4e。
utf16的弊端:0-10ffff,浪费存储空间,A一个字节就可以存储,utf16的话需要字节对齐,也就是2个字节,因此utf-8出现
utf-8:可变长存储方案,
优点:节省方案,方便解析位各种类型,根据文字编码范围
解析:可以根据上图二进制发现文字所占字节规律
如有错误,欢迎指出,谢谢
原文:https://www.cnblogs.com/zhgmen/p/11087002.html