Polish the contents

1. Array and linked list.
2. Computational complexity.
3. Fix a mistake in counting_sort.md
This commit is contained in:
krahets
2023-04-07 22:31:50 +08:00
parent b7daddf88f
commit de6945f55a
11 changed files with 164 additions and 165 deletions

View File

@ -1,14 +1,10 @@
# 数组
「数组 Array」是一种**相同类型元素** 存储在 **连续内存空间** 的数据结构,将元素在数组中的位置称为元素的「索引 Index」。
「数组 Array」是一种线性数据结构,其将相同类型元素存储在连续内存空间中。我们将元素在数组中的位置称为元素的「索引 Index」。
![数组定义与存储方式](array.assets/array_definition.png)
!!! note
观察上图,我们发现 **数组首元素的索引为 $0$** 。你可能会想,这并不符合日常习惯,首个元素的索引为什么不是 $1$ 呢,这不是更加自然吗?我认同你的想法,但请先记住这个设定,后面讲内存地址计算时,我会尝试解答这个问题。
**数组初始化**。一般会用到无初始值、给定初始值两种写法,可根据需求选取。在不给定初始值的情况下,一般所有元素会被初始化为默认值 $0$ 。
**数组初始化**。通常有无初始值和给定初始值两种方式,我们可根据需求选择合适的方法。在未给定初始值的情况下,数组的所有元素通常会被初始化为默认值 $0$ 。
=== "Java"
@ -98,7 +94,7 @@
## 数组优点
**在数组中访问元素非常高效**。这是因为在数组中,计算元素的内存地址非常容易。给定数组首个元素的地址、和一个元素的索引,用以下公式可以直接计算得到该元素的内存地址,从而直接访问此元素。
**在数组中访问元素非常高效**。由于数组元素被存储在连续的内存空间中,因此计算数组元素的内存地址非常容易。给定数组首个元素的地址和某个元素的索引,我们可以使用以下公式计算得到该元素的内存地址,从而直接访问此元素。
![数组元素的内存地址计算](array.assets/array_memory_location_calculation.png)
@ -107,9 +103,13 @@
elementAddr = firtstElementAddr + elementLength * elementIndex
```
**为什么数组元素索引从 0 开始编号** 根据地址计算公式,**索引本质上表示的是内存地址偏移量**,首个元素的地址偏移量是 $0$ ,那么索引是 $0$ 也就很自然了。
!!! question "为什么数组元素索引$0$ 开始编号呢?"
访问元素的高效性带来了许多便利。例如,我们可以在 $O(1)$ 时间内随机获取一个数组中的元素
观察上图,我们发现数组首个元素的索引为 $0$ ,这似乎有些反直觉,因为从 $1$ 开始计数会更自然
然而,从地址计算公式的角度看,**索引本质上表示的是内存地址的偏移量**。首个元素的地址偏移量是 $0$ ,因此索引为 $0$ 也是合理的。
访问元素的高效性带来了诸多便利。例如,我们可以在 $O(1)$ 时间内随机获取数组中的任意一个元素。
=== "Java"
@ -359,9 +359,9 @@ elementAddr = firtstElementAddr + elementLength * elementIndex
总结来看,数组的插入与删除操作有以下缺点:
- **时间复杂度高**:数组的插入和删除的平均时间复杂度均为 $O(N)$ ,其中 $N$ 为数组长度。
- **丢失元素**:由于数组的长度不可变,因此在插入元素后,超出数组长度范围的元素会丢失。
- **内存浪费**:我们一般会初始化一个比较长的数组,只用前面一部分,这样在插入数据时,丢失的末尾元素都是我们不关心的,但这样做同时也会造成内存空间的浪费。
- **时间复杂度高**:数组的插入和删除的平均时间复杂度均为 $O(n)$ ,其中 $n$ 为数组长度。
- **丢失元素**:由于数组的长度不可变,因此在插入元素后,超出数组长度范围的元素会丢失。
- **内存浪费**:我们可以初始化一个比较长的数组,只用前面一部分,这样在插入数据时,丢失的末尾元素都是我们不关心的,但这样做同时也会造成内存空间的浪费。
## 数组常用操作

View File

@ -1,10 +1,10 @@
# 链表
内存空间是所有程序的公共资源,排除已被占用的内存空间,空闲内存空间往往是散落在内存各处的。上节讲到,**存储数组的内存空间必须是连续的**,当我们需要申请一个非常大的数组时,系统不一定能够分配这么大的连续内存空间。
内存空间是所有程序的公共资源,排除已被占用的内存空间,空闲内存空间通常散落在内存各处。在上一节中,我们提到存储数组的内存空间必须是连续的,当我们需要申请一个非常大的数组时,空闲内存中可能没有这么大的连续空间。
相对地,链表则更加灵活,可以存储非连续的内存空间。「链表 Linked List」是一种线性数据结构每个元素都是单独的对象,各个元素(即结点之间通过指针连接。由于结点中记录了连接关系,因此链表的存储方式相比于数组更加灵活,系统可将结点分散在内存各处,而不必保证内存地址的连续性
与数组相比,链表更具灵活性,因为它可以存储非连续的内存空间。「链表 Linked List」是一种线性数据结构其每个元素都是一个结点对象,各个结点之间通过指针连接,从当前结点通过指针可以访问到下一个结点。由于指针记录了下个结点的内存地址,因此无需保证内存地址的连续性,从而可以将各个结点分散存储在内存各处。
链表「结点 Node」包含两项数据一是结点「值 Value」二是指向下一结点的「指针 Pointer」或称「引用 Reference」
链表「结点 Node」包含两项数据一是结点「值 Value」二是指向下一结点的「指针 Pointer」或称指向下一结点的「引用 Reference」。
![链表定义与存储方式](linked_list.assets/linkedlist_definition.png)
@ -154,13 +154,15 @@
}
```
**尾结点指向什么?** 我们一般将链表的最后一个结点称为「尾结点」,其指向的是「空」,在 Java / C++ / Python 中分别记为 `null` / `nullptr` / `None` 。在不引起歧义下,本书都使用 `null` 来表示空。
!!! question "尾结点指向什么?"
**链表初始化方法**。建立链表分为两步,第一步是初始化各个结点对象,第二步是构建引用指向关系。完成后,即可以从链表的首个结点(即头结点)出发,访问其余所有的结点
我们将链表的最后一个结点称为「尾结点」,其指向的是“空”,在 Java, C++, Python 中分别记为 `null`, `nullptr`, `None` 。在不引起歧义的前提下,本书都使用 `null` 来表示空
!!! tip
!!! question "如何称呼链表?"
我们通常将头结点当作链表的代称,例如头结点 `head` 和链表 `head` 实际上是同义的。
在编程语言中,数组整体就是一个变量,例如数组 `nums` ,包含各个元素 `nums[0]` , `nums[1]` 等等。而链表是由多个结点对象组成,我们通常将头结点当作链表的代称,例如头结点 `head` 和链表 `head` 实际上是同义的。
**链表初始化方法**。建立链表分为两步,第一步是初始化各个结点对象,第二步是构建引用指向关系。完成后,即可以从链表的头结点(即首个结点)出发,通过指针 `next` 依次访问所有结点。
=== "Java"
@ -223,7 +225,6 @@
n2 := NewListNode(2)
n3 := NewListNode(5)
n4 := NewListNode(4)
// 构建引用指向
n0.Next = n1
n1.Next = n2
@ -335,7 +336,7 @@
## 链表优点
**链表中插入与删除结点的操作效率高**。如,如果我们想在链表中间的两个结点 `A` , `B` 之间插入一个新结点 `P` ,我们只需要改变两个结点指针即可,时间复杂度为 $O(1)$ 相比数组的插入操作高效很多。
**链表中插入与删除结点的操作效率高**。如,如果我们想在链表中间的两个结点 `A` , `B` 之间插入一个新结点 `P` ,我们只需要改变两个结点指针即可,时间复杂度为 $O(1)$ 相比之下,数组的插入操作效率要低得多。
![链表插入结点](linked_list.assets/linkedlist_insert_node.png)
@ -399,7 +400,7 @@
[class]{}-[func]{insert}
```
在链表中删除结点也方便,只需改变一个结点指针即可。如下图所示,虽然在完成删除后结点 `P` 仍然指向 `n1` ,但实际上 `P` 已经不属于此链表,因为遍历此链表无法访问到 `P`
在链表中删除结点也非常方便,只需改变一个结点指针即可。如下图所示,尽管在删除操作完成后,结点 `P` 仍然指向 `n1`,但实际上 `P` 已经不属于此链表,因为遍历此链表无法访问到 `P`。
![链表删除结点](linked_list.assets/linkedlist_remove_node.png)
@ -465,7 +466,7 @@
## 链表缺点
**链表访问结点效率低**。上节提到,数组可以在 $O(1)$ 时间下访问任意元素,链表无法直接访问任意结点这是因为计算机需要从头结点出发,一个一个地向后遍历到目标结点。例如,倘若想要访问链表索引为 `index` (即第 `index + 1` 个)的结点,那么需要 `index` 次访问操作
**链表访问结点效率低**。上节所述,数组可以在 $O(1)$ 时间下访问任意元素。然而,链表无法直接访问任意结点这是因为系统需要从头结点出发,逐个向后遍历直至找到目标结点。例如,要访问链表索引为 `index`(即第 `index + 1` 个)的结点,则需要向后遍历 `index`
=== "Java"
@ -527,7 +528,7 @@
[class]{}-[func]{access}
```
**链表的内存占用**。链表以结点为单位,每个结点除了保存值外,还需额外保存指针(引用)。这意味着同样数据量下,链表比数组需要占用更多内存空间。
**链表的内存占用较大**。链表以结点为单位,每个结点除了保存值外,还需额外保存指针(引用)。这意味着在相同数据量的情况下,链表比数组需要占用更多内存空间。
## 链表常用操作
@ -595,11 +596,11 @@
## 常见链表类型
**单向链表**。即上述介绍的普通链表。单向链表的结点有「值」和指向下一结点的指针(引用)两项数据。我们将首个结点称为头结点,尾结点指向 `null` 。
**单向链表**。即上述介绍的普通链表。单向链表的结点包含值和指向下一结点的指针(引用)两项数据。我们将首个结点称为头结点,将最后一个结点成为尾结点,尾结点指向 `null` 。
**环形链表**。如果我们令单向链表的尾结点指向头结点(即首尾相接),则得到一个环形链表。在环形链表中,我们可以将任意结点看作是头结点。
**环形链表**。如果我们令单向链表的尾结点指向头结点(即首尾相接),则得到一个环形链表。在环形链表中,任意结点都可以视作头结点。
**双向链表**。单向链表记录了个方向的指针(引用),在双向链表的结点定义中,同时有指向下一结点(后继结点)和上一结点(前驱结点)的指针(引用)」。双向链表相对于单向链表更灵活,可以朝两个方向遍历链表,但也需要占用更多的内存空间。
**双向链表**。单向链表相比,双向链表记录了个方向的指针(引用)双向链表的结点定义同时包含指向后继结点(下一结点)和前驱结点(上一结点)的指针。相较于单向链表,双向链表更灵活,可以朝两个方向遍历链表,但相应地也需要占用更多的内存空间。
=== "Java"

View File

@ -1,12 +1,12 @@
# 列表
**由于长度不可变,数组的实用性大大降低**。在多情况下,我们事先并不知道会输入多少数据,这就为数组长度的选择带来了很大困难。长度选小了,需要在添加数据频繁扩容数组;长度选大了,又造成内存空间的浪费。
**数组长度不可变导致实用性降低**。在多情况下,我们事先无法确定需要存储多少数据,这使数组长度的选择变得困难。长度过小,需要在持续添加数据频繁扩容数组;长度过大,则会造成内存空间的浪费。
解决此问题,诞生了一种被称为「列表 List」的数据结构。列表可以被理解为长度可变的数组,因此也常被称为「动态数组 Dynamic Array」。列表基于数组实现,继承了数组的优点,同时还可以在程序运行中实时扩容。在列表中,我们可以自由添加元素,而不用担心超过容量限制。
为解决此问题,出现了一种被称为「动态数组 Dynamic Array」的数据结构长度可变的数组,也常被称为「列表 List」。列表基于数组实现,继承了数组的优点,并且可以在程序运行过程中动态扩容。在列表中,我们可以自由添加元素,而无需担心超过容量限制。
## 列表常用操作
**初始化列表**我们通常会使用“无初始值”和“有初始值”的两种初始化方法。
**初始化列表**。通常我们会使用“无初始值”和“有初始值”的两种初始化方法。
=== "Java"
@ -106,7 +106,7 @@
try list.appendSlice(&[_]i32{ 1, 3, 2, 5, 4 });
```
**访问与更新元素**。列表的底层数据结构是数组,因此可以在 $O(1)$ 时间内访问更新元素,效率很高。
**访问与更新元素**。由于列表的底层数据结构是数组,因此可以在 $O(1)$ 时间内访问更新元素,效率很高。
=== "Java"
@ -204,7 +204,7 @@
list.items[1] = 0; // 将索引 1 处的元素更新为 0
```
**在列表中添加、插入、删除元素**。相于数组,列表可以自由地添加与删除元素。在列表尾部添加元素的时间复杂度为 $O(1)$ ,但插入删除元素的效率仍与数组一样低,时间复杂度为 $O(N)$ 。
**在列表中添加、插入、删除元素**。相于数组,列表可以自由地添加与删除元素。在列表尾部添加元素的时间复杂度为 $O(1)$ ,但插入删除元素的效率仍与数组相同,时间复杂度为 $O(N)$ 。
=== "Java"
@ -392,7 +392,7 @@
_ = list.orderedRemove(3); // 删除索引 3 处的元素
```
**遍历列表**。与数组一样,列表可以使用索引遍历,也可以使用 `for-each` 直接遍历。
**遍历列表**。与数组一样,列表可以根据索引遍历,也可以直接遍历各元素
=== "Java"
@ -545,7 +545,7 @@
}
```
**拼接两个列表**。再创建一个新列表 `list1` ,我们可以将其中一个列表拼接到另一个的尾部。
**拼接两个列表**。给定一个新列表 `list1`,我们可以将列表拼接到原列表的尾部。
=== "Java"
@ -628,7 +628,7 @@
try list.insertSlice(list.items.len, list1.items); // 将列表 list1 拼接到 list 之后
```
**排序列表**。排序也是常用的方法之一完成列表排序后,我们可以使用在数组类算法题中经常考察的「二分查找」和「双指针」算法
**排序列表**。排序也是常用的方法之一完成列表排序后,我们便可以使用在数组类算法题中经常考察的「二分查找」和「双指针」算法。
=== "Java"
@ -699,15 +699,15 @@
std.sort.sort(i32, list.items, {}, comptime std.sort.asc(i32));
```
## 列表简易实现 *
## 列表实现 *
为了帮助加深对列表的理解,我们在此提供一个列表的简易版本的实现。需要关注三个核心点:
为了帮助加深对列表的理解,我们在此提供一个简易版列表实现。需要关注三个核心点:
- **初始容量**:选取一个合理的数组初始容量 `initialCapacity` 。在本示例中,我们选择 10 作为初始容量。
- **数量记录**需要声明一个变量 `size` ,用记录列表当前有多少个元素,并随着元素插入删除实时更新。根据此变量,可以定位列表尾部,以及判断是否需要扩容。
- **扩容机制**:插入元素可能导致超出列表容量,此时需要扩容列表,方法是建立一个更大的数组来替换当前数组。需要给定一个扩容倍数 `extendRatio` 在本示例中,我们规定每次将数组扩容至之前的 2 倍。
- **初始容量**:选取一个合理的数组初始容量。在本示例中,我们选择 10 作为初始容量。
- **数量记录**:声明一个变量 size记录列表当前元素数量,并随着元素插入删除实时更新。根据此变量,我们可以定位列表尾部,以及判断是否需要扩容。
- **扩容机制**:插入元素可能超出列表容量,此时需要扩容列表。扩容方法是根据扩容倍数创建一个更大的数组,并将当前数组的所有元素依次移动至新数组。在本示例中,我们规定每次将数组扩容至之前的 2 倍。
本示例是为了帮助读者对如何实现列表产生直观的认识。实际编程语言中,列表实现远比以下代码复杂且标准,感兴趣的读者可以查阅源码学习。
本示例旨在帮助读者直观理解列表的工作机制。实际编程语言中,列表实现更加标准和复杂,各个参数的设定也非常有考究,例如初始容量、扩容倍数等。感兴趣的读者可以查阅源码进行学习。
=== "Java"

View File

@ -1,10 +1,10 @@
# 小结
- 数组和链表是两种基本数据结构,代表数据在计算机内存中的两种存储方式,即连续空间存储和离散空间存储。两者的优点与缺点呈现出此消彼长的关系
- 数组支持随机访问、内存空间占用小;但插入删除元素效率低,且初始化后长度不可变。
- 链表通过更改指针实现高效的结点插入与删除,且可以灵活地修改长度;但结点访问效率低、占用内存多。常见的链表类型单向链表、循环链表、双向链表。
- 列表又称动态数组,是基于数组实现的一种数据结构,其保存了数组的优势,可以灵活改变长度。列表的出现大大提升了数组的用性,但副作用是会造成部分内存空间浪费。
- 下表总结对比了数组与链表的各项特性。
- 数组和链表是两种基本数据结构,分别代表数据在计算机内存中的连续空间存储和离散空间存储方式。两者的优缺点呈现出互补的特性
- 数组支持随机访问、占用内存较少;但插入删除元素效率低,且初始化后长度不可变。
- 链表通过更改指针实现高效的结点插入与删除,且可以灵活调整长度;但结点访问效率低、占用内存多。常见的链表类型包括单向链表、循环链表、双向链表。
- 动态数组,又称列表,是基于数组实现的一种数据结构。它保留了数组的优势,同时可以灵活调整长度。列表的出现极大地提高了数组的用性,但可能导致部分内存空间浪费。
- 下表总结对比了数组与链表的各项特性。
<div class="center-table" markdown>
@ -17,11 +17,11 @@
</div>
!!! question "缓存局部性的简单解释"
!!! note "缓存局部性"
在计算机中,数据读写速度排序是“硬盘 < 内存 < CPU 缓存”。当我们访问数组元素时计算机不仅会加载它还会缓存其周围的其它数据从而借助高速缓存来提升后续操作的执行速度链表则不然计算机只能挨个地缓存各个结点这样的多次搬运降低了整体效率
- 下表对比了数组与链表各种操作效率
- 下表对比了数组与链表各种操作上的效率
<div class="center-table" markdown>