首页 > 编程语言 > 详细

JavaScript 中的字符编码

时间:2021-08-02 15:09:37      阅读:19      评论:0      收藏:0      [点我收藏+]

在我们日常开发中,会碰到计算字符串长度的需求,大部分情况下通过字符串的 length 属性能够获得需要的长度。

但是当字符串里的字符不在常用的 65536 个代码点(基本多文种平面,BMP)的时候,情况就复杂了。

比如最大输入长度是 6,但是当我输入 6 个 ??,却提示内容过长了。Why?
我们来执行 console.log(‘??‘.length) 看看,返回值是 2,Why?
原因就是 ?? 不在 BMP 上,它的代码点是 U+1F4A9(十进制表示是 128169)。

那我们如何获得组成 ?? 的 2 个代码点呢?可以参照以下步骤:

  1. 把十六进制的代码点转成十进制,以 ?? 为例,它的十六进制是 0x1F4A9,转成二进制就是 128169;
  2. 将 128169 - 65536,得到 62633;
  3. 将 62633 转成二进制表示(取 20 位,不足补 0),得到 0000 1111 0100 1010 1001;
  4. 把 20 位二进制分成两个 10 位,分别是 0000111101 和 0010101001,然后转成十六进制分别是 0x03D0x0A9
  5. 0x03D 加上 0xD800(固定值)得到 0xD83D,将 0x0A9 加上 0xDC00(固定值)得到 0xDCA9

以上 0xD83D0xDCA9 就是 ?? 的两个代码点,用下面的方法可以验证

"\uD83D\uDCA9" === "\u{1F4A9}"
// true

JavaScript 中的字符编码

原文:https://www.cnblogs.com/yinyuxing/p/15089377.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!