deploy

2025-07-28 21:02:56 +08:00 · 2023-05-22 22:01:26 +08:00
parent f31f630655
commit 9a0252f484
19 changed files with 137 additions and 135 deletions
--- a/chapter_data_structure/character_encoding/index.html
+++ b/chapter_data_structure/character_encoding/index.html
@ -1929,7 +1929,7 @@
 <p>然而，GB2312 无法处理部分的罕见字和繁体字。之后在 GB2312 的基础上，扩展得到了「GBK」字符集，它共收录了 21886 个汉字。在 GBK 编码方案中，ASCII 字符使用一个字节表示，汉字使用两个字节表示。</p>
 <h2 id="343-unicode">3.4.3. &nbsp; Unicode 字符集<a class="headerlink" href="#343-unicode" title="Permanent link">&para;</a></h2>
 <p>随着计算机的蓬勃发展，字符集与编码标准百花齐放，而这带来了许多问题。一方面，这些字符集一般只定义了特定语言的字符，无法在多语言环境下正常工作；另一方面，同一种语言也存在多种字符集标准，如果两台电脑安装的是不同的编码标准，则在信息传递时就会出现乱码。</p>
-<p>那个时代的人们就在想：如果推出一个足够完整的字符集，将世界范围内的所有语言和符号都纳入其中，不就可以解决跨语言环境和乱码问题了吗？在这种想法的驱动下，一个大而全的字符集 Unicode 应运而生。</p>
+<p>那个时代的人们就在想：<strong>如果推出一个足够完整的字符集，将世界范围内的所有语言和符号都收录其中，不就可以解决跨语言环境和乱码问题了吗</strong>？在这种想法的驱动下，一个大而全的字符集 Unicode 应运而生。</p>
 <p>「Unicode」的全称为“统一字符编码”，理论上能容纳一百多万个字符。它致力于将全球范围内的字符纳入到统一的字符集之中，提供一种通用的字符集来处理和显示各种语言文字，减少因为编码标准不同而产生的乱码问题。</p>
 <p>自 1991 年发布以来，Unicode 不断扩充新的语言与字符。截止 2022 年 9 月，Unicode 已经包含 149186 个字符，包括各种语言的字符、符号、甚至是表情符号等。在庞大的 Unicode 字符集中，常用的字符占用 2 字节，有些生僻的字符占 3 字节甚至 4 字节。</p>
 <p>Unicode 是一种字符集标准，本质上是给每个字符分配一个编号（称为“码点”），<strong>但它并没有规定在计算机中如何存储这些字符码点</strong>。我们不禁会问：当多种长度的 Unicode 码点同时出现在同一个文本中时，系统如何解析字符？例如，给定一个长度为 2 字节的编码，系统如何确认它是一个 2 字节的字符还是两个 1 字节的字符？</p>
@ -1942,7 +1942,7 @@
 <p>目前，UTF-8 已成为国际上使用最广泛的 Unicode 编码方法。<strong>它是一种可变长的编码</strong>，使用 1 到 4 个字节来表示一个字符，根据字符的复杂性而变。ASCII 字符只需要 1 个字节，拉丁字母和希腊字母需要 2 个字节，常用的中文字符需要 3 个字节，其他的一些生僻字符需要 4 个字节。</p>
 <p>UTF-8 的编码规则并不复杂，分为两种情况：</p>
 <ul>
-<li><strong>长度为 1 字节的字符</strong>：将最高位设置为 0 、其余 7 位设置为 Unicode 码点。值得注意的是，ASCII 字符在 Unicode 字符集中占据了前 128 个码点。也就是说，<strong>UTF-8 编码可以向下兼容 ASCII 码</strong>。这意味着我们可以使用 UTF-8 来解析年代久远的 ASCII 码文本。</li>
+<li>对于长度为 1 字节的字符，将最高位设置为 <span class="arithmatex">\(0\)</span> 、其余 7 位设置为 Unicode 码点。值得注意的是，ASCII 字符在 Unicode 字符集中占据了前 128 个码点。也就是说，<strong>UTF-8 编码可以向下兼容 ASCII 码</strong>。这意味着我们可以使用 UTF-8 来解析年代久远的 ASCII 码文本。</li>
 <li>对于长度为 <span class="arithmatex">\(n\)</span> 字节的字符（其中 <span class="arithmatex">\(n &gt; 1\)</span>），将首个字节的高 <span class="arithmatex">\(n\)</span> 位都设置为 <span class="arithmatex">\(1\)</span> 、第 <span class="arithmatex">\(n + 1\)</span> 位设置为 <span class="arithmatex">\(0\)</span> ；从第二个字节开始，将每个字节的高 2 位都设置为 <span class="arithmatex">\(10\)</span> ；其余所有位用于填充字符的 Unicode 码点。</li>
 </ul>
 <p>下图展示了“Hello算法”对应的 UTF-8 编码。将最高 <span class="arithmatex">\(n\)</span> 位设置为 <span class="arithmatex">\(1\)</span> 比较容易理解，可以向系统指出字符的长度为 <span class="arithmatex">\(n\)</span> 。那么，为什么要将其余所有字节的高 2 位都设置为 <span class="arithmatex">\(10\)</span> 呢？实际上，这个 <span class="arithmatex">\(10\)</span> 能够起到校验符的作用，因为在 UTF-8 编码规则下，不可能有字符的最高两位是 <span class="arithmatex">\(10\)</span> 。这是因为长度为 1 字节的字符的最高一位是 <span class="arithmatex">\(0\)</span> 。假设系统从一个错误的字节开始解析文本，字节头部的 <span class="arithmatex">\(10\)</span> 能够帮助系统快速的判断出异常。</p>