Add the codes of hashmap (#553)

of chaining and open addressing
2025-12-19 07:17:54 +08:00 · 2023-06-14 02:01:06 +08:00
parent d3e597af94
commit 9563965a20
27 changed files with 1280 additions and 207 deletions
--- a/docs/chapter_hashing/hash_collision.md
+++ b/docs/chapter_hashing/hash_collision.md
@@ -14,13 +14,13 @@

 因此，**当哈希表内的冲突总体较为严重时，编程语言通常通过扩容哈希表来缓解冲突**。类似于数组扩容，哈希表扩容需将所有键值对从原哈希表迁移至新哈希表，开销较大。

-编程语言通常使用「负载因子 Load Factor」来衡量哈希冲突的严重程度，**定义为哈希表中元素数量除以桶数量**，常作为哈希表扩容的触发条件。在 Java 中，当负载因子 $> 0.75$ 时，系统会将 HashMap 容量扩展为原先的 $2$ 倍。
+编程语言通常使用「负载因子 Load Factor」来衡量哈希冲突的严重程度，**定义为哈希表中元素数量除以桶数量**，常作为哈希表扩容的触发条件。在 Java 中，当负载因子超过 $ 0.75$ 时，系统会将 HashMap 容量扩展为原先的 $2$ 倍。

 ## 链式地址

 在原始哈希表中，每个桶仅能存储一个键值对。**链式地址将单个元素转换为链表，将键值对作为链表节点，将所有发生冲突的键值对都存储在同一链表中**。

-![链式地址](hash_collision.assets/hash_collision_chaining.png)
+![链式地址哈希表](hash_collision.assets/hash_collision_chaining.png)

 链式地址下，哈希表的操作方法包括：

@@ -33,44 +33,225 @@
 - **占用空间增大**，由于链表或二叉树包含节点指针，相比数组更加耗费内存空间；
 - **查询效率降低**，因为需要线性遍历链表来查找对应元素；

-为了提高操作效率，**可以将链表转换为「AVL 树」或「红黑树」**，将查询操作的时间复杂度优化至 $O(\log n)$ 。
+以下给出了链式地址哈希表的简单实现，需要注意：
+
+- 为了使得代码尽量简短，我们使用列表（动态数组）代替链表。换句话说，哈希表（数组）包含多个桶，每个桶都是一个列表。
+- 以下代码实现了哈希表扩容方法。具体来看，当负载因子超过 $0.75$ 时，我们将哈希表扩容至 $2$ 倍。
+
+=== "Java"
+
+    ```java title="hash_map_chaining.java"
+    [class]{Pair}-[func]{}
+
+    [class]{HashMapChaining}-[func]{}
+    ```
+
+=== "C++"
+
+    ```cpp title="hash_map_chaining.cpp"
+    [class]{Pair}-[func]{}
+
+    [class]{HashMapChaining}-[func]{}
+    ```
+
+=== "Python"
+
+    ```python title="hash_map_chaining.py"
+    [class]{Pair}-[func]{}
+
+    [class]{HashMapChaining}-[func]{}
+    ```
+
+=== "Go"
+
+    ```go title="hash_map_chaining.go"
+    [class]{pair}-[func]{}
+
+    [class]{hashMapChaining}-[func]{}
+    ```
+
+=== "JavaScript"
+
+    ```javascript title="hash_map_chaining.js"
+    [class]{Pair}-[func]{}
+
+    [class]{HashMapChaining}-[func]{}
+    ```
+
+=== "TypeScript"
+
+    ```typescript title="hash_map_chaining.ts"
+    [class]{Pair}-[func]{}
+
+    [class]{HashMapChaining}-[func]{}
+    ```
+
+=== "C"
+
+    ```c title="hash_map_chaining.c"
+    [class]{pair}-[func]{}
+
+    [class]{hashMapChaining}-[func]{}
+    ```
+
+=== "C#"
+
+    ```csharp title="hash_map_chaining.cs"
+    [class]{Pair}-[func]{}
+
+    [class]{HashMapChaining}-[func]{}
+    ```
+
+=== "Swift"
+
+    ```swift title="hash_map_chaining.swift"
+    [class]{Pair}-[func]{}
+
+    [class]{HashMapChaining}-[func]{}
+    ```
+
+=== "Zig"
+
+    ```zig title="hash_map_chaining.zig"
+    [class]{Pair}-[func]{}
+
+    [class]{HashMapChaining}-[func]{}
+    ```
+
+=== "Dart"
+
+    ```dart title="hash_map_chaining.dart"
+    [class]{Pair}-[func]{}
+
+    [class]{HashMapChaining}-[func]{}
+    ```
+
+!!! tip
+
+    为了提高效率，**我们可以将链表转换为「AVL 树」或「红黑树」**，从而将查询操作的时间复杂度优化至 $O(\log n)$ 。

 ## 开放寻址

-「开放寻址」方法不引入额外的数据结构，而是通过“多次探测”来解决哈希冲突，**探测方式主要包括线性探测、平方探测、多次哈希**。
+开放寻址法不引入额外的数据结构，而是通过“多次探测”来解决哈希冲突，**探测方式主要包括线性探测、平方探测、多次哈希**。

 ### 线性探测

-「线性探测」采用固定步长的线性查找来解决哈希冲突。
+线性探测采用固定步长的线性查找来解决哈希冲突。

-**插入元素**：若出现哈希冲突，则从冲突位置向后线性遍历（步长通常为 $1$ ），直至找到空位，将元素插入其中。
-
-**查找元素**：在出现哈希冲突时，使用相同步长进行线性查找，可能遇到以下两种情况。
-
-1. 找到对应元素，返回 value 即可；
-2. 若遇到空位，说明目标键值对不在哈希表中；
+- **插入元素**：通过哈希函数计算数组索引，若发现桶内已有元素，则从冲突位置向后线性遍历（步长通常为 $1$ ），直至找到空位，将元素插入其中。
+- **查找元素**：若发现哈希冲突，则使用相同步长向后线性遍历，直到找到对应元素，返回 value 即可；或者若遇到空位，说明目标键值对不在哈希表中，返回 $\text{None}$ 。

 ![线性探测](hash_collision.assets/hash_collision_linear_probing.png)

-线性探测存在以下缺陷：
+然而，线性探测存在以下缺陷：

- **不能直接删除元素**。删除元素会在数组内产生一个空位，查找其他元素时，该空位可能导致程序误判元素不存在（即上述第 `2.` 种情况）。因此，需要借助一个标志位来标记已删除元素。
+- **不能直接删除元素**。删除元素会在数组内产生一个空位，查找其他元素时，该空位可能导致程序误判元素不存在。因此，需要借助一个标志位来标记已删除元素。
 - **容易产生聚集**。数组内连续被占用位置越长，这些连续位置发生哈希冲突的可能性越大，进一步促使这一位置的“聚堆生长”，最终导致增删查改操作效率降低。

+如以下代码所示，为开放寻址（线性探测）哈希表的简单实现，重点包括：
+
+- 我们使用一个固定的键值对实例 `removed` 来标记已删除元素。也就是说，当一个桶为 $\text{None}$ 或 `removed` 时，这个桶都是空的，可用于放置键值对。
+- 被标记为已删除的空间是可以再次被使用的。当插入元素时，若通过哈希函数找到了被标记为已删除的索引，则可将该元素放置到该索引。
+- 在线性探测时，我们从当前索引 `index` 向后遍历；而当越过数组尾部时，需要回到头部继续遍历。
+
+=== "Java"
+
+    ```java title="hash_map_open_addressing.java"
+    [class]{Pair}-[func]{}
+
+    [class]{HashMapOpenAddressing}-[func]{}
+    ```
+
+=== "C++"
+
+    ```cpp title="hash_map_open_addressing.cpp"
+    [class]{Pair}-[func]{}
+
+    [class]{HashMapOpenAddressing}-[func]{}
+    ```
+
+=== "Python"
+
+    ```python title="hash_map_open_addressing.py"
+    [class]{Pair}-[func]{}
+
+    [class]{HashMapOpenAddressing}-[func]{}
+    ```
+
+=== "Go"
+
+    ```go title="hash_map_open_addressing.go"
+    [class]{pair}-[func]{}
+
+    [class]{hashMapOpenAddressing}-[func]{}
+    ```
+
+=== "JavaScript"
+
+    ```javascript title="hash_map_open_addressing.js"
+    [class]{Pair}-[func]{}
+
+    [class]{HashMapOpenAddressing}-[func]{}
+    ```
+
+=== "TypeScript"
+
+    ```typescript title="hash_map_open_addressing.ts"
+    [class]{Pair}-[func]{}
+
+    [class]{HashMapOpenAddressing}-[func]{}
+    ```
+
+=== "C"
+
+    ```c title="hash_map_open_addressing.c"
+    [class]{pair}-[func]{}
+
+    [class]{hashMapOpenAddressing}-[func]{}
+    ```
+
+=== "C#"
+
+    ```csharp title="hash_map_open_addressing.cs"
+    [class]{Pair}-[func]{}
+
+    [class]{HashMapOpenAddressing}-[func]{}
+    ```
+
+=== "Swift"
+
+    ```swift title="hash_map_open_addressing.swift"
+    [class]{Pair}-[func]{}
+
+    [class]{HashMapOpenAddressing}-[func]{}
+    ```
+
+=== "Zig"
+
+    ```zig title="hash_map_open_addressing.zig"
+    [class]{Pair}-[func]{}
+
+    [class]{HashMapOpenAddressing}-[func]{}
+    ```
+
+=== "Dart"
+
+    ```dart title="hash_map_open_addressing.dart"
+    [class]{Pair}-[func]{}
+
+    [class]{HashMapOpenAddressing}-[func]{}
+    ```
+
 ### 多次哈希

-顾名思义，「多次哈希」方法是使用多个哈希函数 $f_1(x)$ , $f_2(x)$ , $f_3(x)$ , $\cdots$ 进行探测。
+顾名思义，多次哈希方法是使用多个哈希函数 $f_1(x)$ , $f_2(x)$ , $f_3(x)$ , $\cdots$ 进行探测。

-**插入元素**：若哈希函数 $f_1(x)$ 出现冲突，则尝试 $f_2(x)$ ，以此类推，直到找到空位后插入元素。
-
-**查找元素**：在相同的哈希函数顺序下进行查找，存在以下两种情况：
-
-1. 如果找到目标元素，则返回之；
-2. 若遇到空位或已尝试所有哈希函数，则说明哈希表中不存在该元素；
+- **插入元素**：若哈希函数 $f_1(x)$ 出现冲突，则尝试 $f_2(x)$ ，以此类推，直到找到空位后插入元素。
+- **查找元素**：在相同的哈希函数顺序下进行查找，直到找到目标元素时返回；或遇到空位或已尝试所有哈希函数，说明哈希表中不存在该元素，则返回 $\text{None}$ 。

 与线性探测相比，多次哈希方法不易产生聚集，但多个哈希函数会增加额外的计算量。

-!!! note "哈希表设计方案"
+!!! note "编程语言的选择"

    Java 采用「链式地址」。自 JDK 1.8 以来，当 HashMap 内数组长度达到 64 且链表长度达到 8 时，链表会被转换为红黑树以提升查找性能。

--- a/docs/chapter_hashing/hash_map.md
+++ b/docs/chapter_hashing/hash_map.md
@@ -6,16 +6,20 @@

 ![哈希表的抽象表示](hash_map.assets/hash_map.png)

-除哈希表外，我们还可以使用数组或链表实现查询功能，各项操作的时间复杂度如下表所示。
+除哈希表外，我们还可以使用数组或链表实现元素查询，其中：

-在哈希表中增删查改的时间复杂度都是 $O(1)$ ，全面胜出！因此，哈希表常用于对查找效率要求较高的场景。
+- 查询元素需要遍历所有元素，使用 $O(n)$ 时间；
+- 添加元素仅需添加至尾部即可，使用 $O(1)$ 时间；
+- 删除元素需要先查询再删除，使用 $O(n)$ 时间；
+
+然而，在哈希表中进行增删查的时间复杂度都是 $O(1)$ 。哈希表全面胜出！因此，哈希表常用于对查找效率要求较高的场景。

 <div class="center-table" markdown>

 |          | 数组   | 链表   | 哈希表 |
 | -------- | ------ | ------ | ------ |
 | 查找元素 | $O(n)$ | $O(n)$ | $O(1)$ |
-| 插入元素 | $O(1)$ | $O(1)$ | $O(1)$ |
+| 添加元素 | $O(1)$ | $O(1)$ | $O(1)$ |
 | 删除元素 | $O(n)$ | $O(n)$ | $O(1)$ |

 </div>
@@ -430,12 +434,12 @@

 首先考虑最简单的情况，**仅使用一个数组来实现哈希表**。通常，我们将数组中的每个空位称为「桶 Bucket」，用于存储键值对。

-我们将键值对 key, value 封装成一个类 `Entry` ，并将所有 `Entry` 放入数组中。这样，数组中的每个 `Entry` 都具有唯一的索引。为了建立 key 和索引之间的映射关系，我们需要使用「哈希函数 Hash Function」。
+我们将键值对 key, value 封装成一个类 `Pair` ，并将所有 `Pair` 放入数组中。这样，数组中的每个 `Pair` 都具有唯一的索引。为了建立 key 和索引之间的映射关系，我们需要使用「哈希函数 Hash Function」。

 设哈希表的数组为 `buckets` ，哈希函数为 `f(x)` ，那么查询操作的步骤如下：

 1. 输入 `key` ，通过哈希函数计算出索引 `index` ，即 `index = f(key)` ；
-2. 通过索引在数组中访问到键值对 `entry` ，即 `entry = buckets[index]` ，然后从 `entry` 中获取对应的 `value` ；
+2. 通过索引在数组中访问到键值对 `pair` ，即 `pair = buckets[index]` ，然后从 `pair` 中获取对应的 `value` ；

 以学生数据 `key 学号 -> value 姓名` 为例，我们可以设计如下哈希函数：

@@ -450,7 +454,7 @@ $$
 === "Java"

    ```java title="array_hash_map.java"
-    [class]{Entry}-[func]{}
+    [class]{Pair}-[func]{}

    [class]{ArrayHashMap}-[func]{}
    ```
@@ -458,7 +462,7 @@ $$
 === "C++"

    ```cpp title="array_hash_map.cpp"
-    [class]{Entry}-[func]{}
+    [class]{Pair}-[func]{}

    [class]{ArrayHashMap}-[func]{}
    ```
@@ -466,7 +470,7 @@ $$
 === "Python"

    ```python title="array_hash_map.py"
-    [class]{Entry}-[func]{}
+    [class]{Pair}-[func]{}

    [class]{ArrayHashMap}-[func]{}
    ```
@@ -474,7 +478,7 @@ $$
 === "Go"

    ```go title="array_hash_map.go"
-    [class]{entry}-[func]{}
+    [class]{pair}-[func]{}

    [class]{arrayHashMap}-[func]{}
    ```
@@ -482,7 +486,7 @@ $$
 === "JavaScript"

    ```javascript title="array_hash_map.js"
-    [class]{Entry}-[func]{}
+    [class]{Pair}-[func]{}

    [class]{ArrayHashMap}-[func]{}
    ```
@@ -490,7 +494,7 @@ $$
 === "TypeScript"

    ```typescript title="array_hash_map.ts"
-    [class]{Entry}-[func]{}
+    [class]{Pair}-[func]{}

    [class]{ArrayHashMap}-[func]{}
    ```
@@ -498,7 +502,7 @@ $$
 === "C"

    ```c title="array_hash_map.c"
-    [class]{entry}-[func]{}
+    [class]{pair}-[func]{}

    [class]{arrayHashMap}-[func]{}
    ```
@@ -506,7 +510,7 @@ $$
 === "C#"

    ```csharp title="array_hash_map.cs"
-    [class]{Entry}-[func]{}
+    [class]{Pair}-[func]{}

    [class]{ArrayHashMap}-[func]{}
    ```
@@ -514,7 +518,7 @@ $$
 === "Swift"

    ```swift title="array_hash_map.swift"
-    [class]{Entry}-[func]{}
+    [class]{Pair}-[func]{}

    [class]{ArrayHashMap}-[func]{}
    ```
@@ -522,7 +526,7 @@ $$
 === "Zig"

    ```zig title="array_hash_map.zig"
-    [class]{Entry}-[func]{}
+    [class]{Pair}-[func]{}

    [class]{ArrayHashMap}-[func]{}
    ```
@@ -530,7 +534,7 @@ $$
 === "Dart"

    ```dart title="array_hash_map.dart"
-    [class]{Entry}-[func]{}
+    [class]{Pair}-[func]{}

    [class]{ArrayHashMap}-[func]{}
    ```
--- a/docs/chapter_hashing/summary.md
+++ b/docs/chapter_hashing/summary.md
@@ -2,7 +2,7 @@

 - 哈希表能够在 $O(1)$ 时间内将键 key 映射到值 value，效率非常高。
 - 常见的哈希表操作包括查询、添加与删除键值对、遍历键值对等。
- 哈希函数将 key 映射为数组索引（桶），以便访问对应的值 value 。
+- 哈希函数将 key 映射为数组索引（桶索引），从而访问对应的值 value 。
 - 两个不同的 key 可能在经过哈希函数后得到相同的索引，导致查询结果出错，这种现象被称为哈希冲突。
 - 缓解哈希冲突的方法主要有扩容哈希表和优化哈希表的表示方法。
 - 负载因子定义为哈希表中元素数量除以桶数量，反映了哈希冲突的严重程度，常用作触发哈希表扩容的条件。与数组扩容类似，哈希表扩容操作也会产生较大的开销。