Add the codes of hashmap (#553)

of chaining and open addressing
This commit is contained in:
Yudong Jin
2023-06-14 02:01:06 +08:00
committed by GitHub
parent d3e597af94
commit 9563965a20
27 changed files with 1280 additions and 207 deletions

View File

@ -14,13 +14,13 @@
因此,**当哈希表内的冲突总体较为严重时,编程语言通常通过扩容哈希表来缓解冲突**。类似于数组扩容,哈希表扩容需将所有键值对从原哈希表迁移至新哈希表,开销较大。
编程语言通常使用「负载因子 Load Factor」来衡量哈希冲突的严重程度**定义为哈希表中元素数量除以桶数量**,常作为哈希表扩容的触发条件。在 Java 中,当负载因子 $> 0.75$ 时,系统会将 HashMap 容量扩展为原先的 $2$ 倍。
编程语言通常使用「负载因子 Load Factor」来衡量哈希冲突的严重程度**定义为哈希表中元素数量除以桶数量**,常作为哈希表扩容的触发条件。在 Java 中,当负载因子超过 $ 0.75$ 时,系统会将 HashMap 容量扩展为原先的 $2$ 倍。
## 链式地址
在原始哈希表中,每个桶仅能存储一个键值对。**链式地址将单个元素转换为链表,将键值对作为链表节点,将所有发生冲突的键值对都存储在同一链表中**。
![链式地址](hash_collision.assets/hash_collision_chaining.png)
![链式地址哈希表](hash_collision.assets/hash_collision_chaining.png)
链式地址下,哈希表的操作方法包括:
@ -33,44 +33,225 @@
- **占用空间增大**,由于链表或二叉树包含节点指针,相比数组更加耗费内存空间;
- **查询效率降低**,因为需要线性遍历链表来查找对应元素;
为了提高操作效率,**可以将链表转换为「AVL 树」或「红黑树」**,将查询操作的时间复杂度优化至 $O(\log n)$ 。
以下给出了链式地址哈希表的简单实现,需要注意:
- 为了使得代码尽量简短,我们使用列表(动态数组)代替链表。换句话说,哈希表(数组)包含多个桶,每个桶都是一个列表。
- 以下代码实现了哈希表扩容方法。具体来看,当负载因子超过 $0.75$ 时,我们将哈希表扩容至 $2$ 倍。
=== "Java"
```java title="hash_map_chaining.java"
[class]{Pair}-[func]{}
[class]{HashMapChaining}-[func]{}
```
=== "C++"
```cpp title="hash_map_chaining.cpp"
[class]{Pair}-[func]{}
[class]{HashMapChaining}-[func]{}
```
=== "Python"
```python title="hash_map_chaining.py"
[class]{Pair}-[func]{}
[class]{HashMapChaining}-[func]{}
```
=== "Go"
```go title="hash_map_chaining.go"
[class]{pair}-[func]{}
[class]{hashMapChaining}-[func]{}
```
=== "JavaScript"
```javascript title="hash_map_chaining.js"
[class]{Pair}-[func]{}
[class]{HashMapChaining}-[func]{}
```
=== "TypeScript"
```typescript title="hash_map_chaining.ts"
[class]{Pair}-[func]{}
[class]{HashMapChaining}-[func]{}
```
=== "C"
```c title="hash_map_chaining.c"
[class]{pair}-[func]{}
[class]{hashMapChaining}-[func]{}
```
=== "C#"
```csharp title="hash_map_chaining.cs"
[class]{Pair}-[func]{}
[class]{HashMapChaining}-[func]{}
```
=== "Swift"
```swift title="hash_map_chaining.swift"
[class]{Pair}-[func]{}
[class]{HashMapChaining}-[func]{}
```
=== "Zig"
```zig title="hash_map_chaining.zig"
[class]{Pair}-[func]{}
[class]{HashMapChaining}-[func]{}
```
=== "Dart"
```dart title="hash_map_chaining.dart"
[class]{Pair}-[func]{}
[class]{HashMapChaining}-[func]{}
```
!!! tip
为了提高效率,**我们可以将链表转换为「AVL 树」或「红黑树」**,从而将查询操作的时间复杂度优化至 $O(\log n)$ 。
## 开放寻址
开放寻址」方法不引入额外的数据结构,而是通过“多次探测”来解决哈希冲突,**探测方式主要包括线性探测、平方探测、多次哈希**。
开放寻址法不引入额外的数据结构,而是通过“多次探测”来解决哈希冲突,**探测方式主要包括线性探测、平方探测、多次哈希**。
### 线性探测
线性探测采用固定步长的线性查找来解决哈希冲突。
线性探测采用固定步长的线性查找来解决哈希冲突。
**插入元素**:若出现哈希冲突,则从冲突位置向后线性遍历(步长通常为 $1$ ),直至找到空位,将元素插入其中。
**查找元素**:在出现哈希冲突时,使用相同步长进行线性查找,可能遇到以下两种情况。
1. 找到对应元素,返回 value 即可;
2. 若遇到空位,说明目标键值对不在哈希表中;
- **插入元素**:通过哈希函数计算数组索引,若发现桶内已有元素,则从冲突位置向后线性遍历(步长通常为 $1$ ),直至找到空位,将元素插入其中。
- **查找元素**:若发现哈希冲突,则使用相同步长向后线性遍历,直到找到对应元素,返回 value 即可;或者若遇到空位,说明目标键值对不在哈希表中,返回 $\text{None}$ 。
![线性探测](hash_collision.assets/hash_collision_linear_probing.png)
线性探测存在以下缺陷:
然而,线性探测存在以下缺陷:
- **不能直接删除元素**。删除元素会在数组内产生一个空位,查找其他元素时,该空位可能导致程序误判元素不存在(即上述第 `2.` 种情况)。因此,需要借助一个标志位来标记已删除元素。
- **不能直接删除元素**。删除元素会在数组内产生一个空位,查找其他元素时,该空位可能导致程序误判元素不存在。因此,需要借助一个标志位来标记已删除元素。
- **容易产生聚集**。数组内连续被占用位置越长,这些连续位置发生哈希冲突的可能性越大,进一步促使这一位置的“聚堆生长”,最终导致增删查改操作效率降低。
如以下代码所示,为开放寻址(线性探测)哈希表的简单实现,重点包括:
- 我们使用一个固定的键值对实例 `removed` 来标记已删除元素。也就是说,当一个桶为 $\text{None}$ 或 `removed` 时,这个桶都是空的,可用于放置键值对。
- 被标记为已删除的空间是可以再次被使用的。当插入元素时,若通过哈希函数找到了被标记为已删除的索引,则可将该元素放置到该索引。
- 在线性探测时,我们从当前索引 `index` 向后遍历;而当越过数组尾部时,需要回到头部继续遍历。
=== "Java"
```java title="hash_map_open_addressing.java"
[class]{Pair}-[func]{}
[class]{HashMapOpenAddressing}-[func]{}
```
=== "C++"
```cpp title="hash_map_open_addressing.cpp"
[class]{Pair}-[func]{}
[class]{HashMapOpenAddressing}-[func]{}
```
=== "Python"
```python title="hash_map_open_addressing.py"
[class]{Pair}-[func]{}
[class]{HashMapOpenAddressing}-[func]{}
```
=== "Go"
```go title="hash_map_open_addressing.go"
[class]{pair}-[func]{}
[class]{hashMapOpenAddressing}-[func]{}
```
=== "JavaScript"
```javascript title="hash_map_open_addressing.js"
[class]{Pair}-[func]{}
[class]{HashMapOpenAddressing}-[func]{}
```
=== "TypeScript"
```typescript title="hash_map_open_addressing.ts"
[class]{Pair}-[func]{}
[class]{HashMapOpenAddressing}-[func]{}
```
=== "C"
```c title="hash_map_open_addressing.c"
[class]{pair}-[func]{}
[class]{hashMapOpenAddressing}-[func]{}
```
=== "C#"
```csharp title="hash_map_open_addressing.cs"
[class]{Pair}-[func]{}
[class]{HashMapOpenAddressing}-[func]{}
```
=== "Swift"
```swift title="hash_map_open_addressing.swift"
[class]{Pair}-[func]{}
[class]{HashMapOpenAddressing}-[func]{}
```
=== "Zig"
```zig title="hash_map_open_addressing.zig"
[class]{Pair}-[func]{}
[class]{HashMapOpenAddressing}-[func]{}
```
=== "Dart"
```dart title="hash_map_open_addressing.dart"
[class]{Pair}-[func]{}
[class]{HashMapOpenAddressing}-[func]{}
```
### 多次哈希
顾名思义,多次哈希方法是使用多个哈希函数 $f_1(x)$ , $f_2(x)$ , $f_3(x)$ , $\cdots$ 进行探测。
顾名思义,多次哈希方法是使用多个哈希函数 $f_1(x)$ , $f_2(x)$ , $f_3(x)$ , $\cdots$ 进行探测。
**插入元素**:若哈希函数 $f_1(x)$ 出现冲突,则尝试 $f_2(x)$ ,以此类推,直到找到空位后插入元素。
**查找元素**:在相同的哈希函数顺序下进行查找,存在以下两种情况:
1. 如果找到目标元素,则返回之;
2. 若遇到空位或已尝试所有哈希函数,则说明哈希表中不存在该元素;
- **插入元素**:若哈希函数 $f_1(x)$ 出现冲突,则尝试 $f_2(x)$ ,以此类推,直到找到空位后插入元素。
- **查找元素**:在相同的哈希函数顺序下进行查找,直到找到目标元素时返回;或遇到空位或已尝试所有哈希函数,说明哈希表中不存在该元素,则返回 $\text{None}$ 。
与线性探测相比,多次哈希方法不易产生聚集,但多个哈希函数会增加额外的计算量。
!!! note "哈希表设计方案"
!!! note "编程语言的选择"
Java 采用「链式地址」。自 JDK 1.8 以来,当 HashMap 内数组长度达到 64 且链表长度达到 8 时,链表会被转换为红黑树以提升查找性能。

View File

@ -6,16 +6,20 @@
![哈希表的抽象表示](hash_map.assets/hash_map.png)
除哈希表外,我们还可以使用数组或链表实现查询功能,各项操作的时间复杂度如下表所示。
除哈希表外,我们还可以使用数组或链表实现元素查询,其中:
在哈希表中增删查改的时间复杂度都是 $O(1)$ ,全面胜出!因此,哈希表常用于对查找效率要求较高的场景。
- 查询元素需要遍历所有元素,使用 $O(n)$ 时间;
- 添加元素仅需添加至尾部即可,使用 $O(1)$ 时间;
- 删除元素需要先查询再删除,使用 $O(n)$ 时间;
然而,在哈希表中进行增删查的时间复杂度都是 $O(1)$ 。哈希表全面胜出!因此,哈希表常用于对查找效率要求较高的场景。
<div class="center-table" markdown>
| | 数组 | 链表 | 哈希表 |
| -------- | ------ | ------ | ------ |
| 查找元素 | $O(n)$ | $O(n)$ | $O(1)$ |
| 插入元素 | $O(1)$ | $O(1)$ | $O(1)$ |
| 添加元素 | $O(1)$ | $O(1)$ | $O(1)$ |
| 删除元素 | $O(n)$ | $O(n)$ | $O(1)$ |
</div>
@ -430,12 +434,12 @@
首先考虑最简单的情况,**仅使用一个数组来实现哈希表**。通常,我们将数组中的每个空位称为「桶 Bucket」用于存储键值对。
我们将键值对 key, value 封装成一个类 `Entry` ,并将所有 `Entry` 放入数组中。这样,数组中的每个 `Entry` 都具有唯一的索引。为了建立 key 和索引之间的映射关系,我们需要使用「哈希函数 Hash Function」。
我们将键值对 key, value 封装成一个类 `Pair` ,并将所有 `Pair` 放入数组中。这样,数组中的每个 `Pair` 都具有唯一的索引。为了建立 key 和索引之间的映射关系,我们需要使用「哈希函数 Hash Function」。
设哈希表的数组为 `buckets` ,哈希函数为 `f(x)` ,那么查询操作的步骤如下:
1. 输入 `key` ,通过哈希函数计算出索引 `index` ,即 `index = f(key)`
2. 通过索引在数组中访问到键值对 `entry` ,即 `entry = buckets[index]` ,然后从 `entry` 中获取对应的 `value`
2. 通过索引在数组中访问到键值对 `pair` ,即 `pair = buckets[index]` ,然后从 `pair` 中获取对应的 `value`
以学生数据 `key 学号 -> value 姓名` 为例,我们可以设计如下哈希函数:
@ -450,7 +454,7 @@ $$
=== "Java"
```java title="array_hash_map.java"
[class]{Entry}-[func]{}
[class]{Pair}-[func]{}
[class]{ArrayHashMap}-[func]{}
```
@ -458,7 +462,7 @@ $$
=== "C++"
```cpp title="array_hash_map.cpp"
[class]{Entry}-[func]{}
[class]{Pair}-[func]{}
[class]{ArrayHashMap}-[func]{}
```
@ -466,7 +470,7 @@ $$
=== "Python"
```python title="array_hash_map.py"
[class]{Entry}-[func]{}
[class]{Pair}-[func]{}
[class]{ArrayHashMap}-[func]{}
```
@ -474,7 +478,7 @@ $$
=== "Go"
```go title="array_hash_map.go"
[class]{entry}-[func]{}
[class]{pair}-[func]{}
[class]{arrayHashMap}-[func]{}
```
@ -482,7 +486,7 @@ $$
=== "JavaScript"
```javascript title="array_hash_map.js"
[class]{Entry}-[func]{}
[class]{Pair}-[func]{}
[class]{ArrayHashMap}-[func]{}
```
@ -490,7 +494,7 @@ $$
=== "TypeScript"
```typescript title="array_hash_map.ts"
[class]{Entry}-[func]{}
[class]{Pair}-[func]{}
[class]{ArrayHashMap}-[func]{}
```
@ -498,7 +502,7 @@ $$
=== "C"
```c title="array_hash_map.c"
[class]{entry}-[func]{}
[class]{pair}-[func]{}
[class]{arrayHashMap}-[func]{}
```
@ -506,7 +510,7 @@ $$
=== "C#"
```csharp title="array_hash_map.cs"
[class]{Entry}-[func]{}
[class]{Pair}-[func]{}
[class]{ArrayHashMap}-[func]{}
```
@ -514,7 +518,7 @@ $$
=== "Swift"
```swift title="array_hash_map.swift"
[class]{Entry}-[func]{}
[class]{Pair}-[func]{}
[class]{ArrayHashMap}-[func]{}
```
@ -522,7 +526,7 @@ $$
=== "Zig"
```zig title="array_hash_map.zig"
[class]{Entry}-[func]{}
[class]{Pair}-[func]{}
[class]{ArrayHashMap}-[func]{}
```
@ -530,7 +534,7 @@ $$
=== "Dart"
```dart title="array_hash_map.dart"
[class]{Entry}-[func]{}
[class]{Pair}-[func]{}
[class]{ArrayHashMap}-[func]{}
```

View File

@ -2,7 +2,7 @@
- 哈希表能够在 $O(1)$ 时间内将键 key 映射到值 value效率非常高。
- 常见的哈希表操作包括查询、添加与删除键值对、遍历键值对等。
- 哈希函数将 key 映射为数组索引(桶),以便访问对应的值 value 。
- 哈希函数将 key 映射为数组索引(桶索引),从而访问对应的值 value 。
- 两个不同的 key 可能在经过哈希函数后得到相同的索引,导致查询结果出错,这种现象被称为哈希冲突。
- 缓解哈希冲突的方法主要有扩容哈希表和优化哈希表的表示方法。
- 负载因子定义为哈希表中元素数量除以桶数量,反映了哈希冲突的严重程度,常用作触发哈希表扩容的条件。与数组扩容类似,哈希表扩容操作也会产生较大的开销。