Python数据结构与算法(2.7)——跳表

x33g5p2x  于2022-02-09 转载在 Python  
字(5.8k)|赞(0)|评价(0)|浏览(365)

0. 学习目标

在诸如单链表、双线链表等普通链表中,查找、插入和删除操作由于必须从头结点遍历链表才能找到相关链表,因此时间复杂度均为 O ( n ) O(n)O(n)。跳表是带有附加指针的链表,使用这些附加指针可以跳过一些中间结点,用以快速完成查找、插入和删除等操作。本节将介绍跳表的相关概念及其具体实现。
通过本节学习,应掌握以下内容:

  • 跳表的基本概念及其与普通链表的区别
  • 跳表及其操作的实现

1. 跳表的基本概念

跳表 (Skip List) 是一种可以快速进行查找、插入和删除等操作的有序链表(链表中的数据项按照某种顺序进行排列的链表称为有序链表)。跳表的核心思想是以更大的跨度遍历链表,以便可以跳过中间结点。

1.1 跳表介绍

首先,让我们回想一下如何在以下单链表中查找数据元素,即使链表中的数据已经排好序,我们也需要从头结点开始遍历链表。

例如要在以上单链表中查找 15,查找过程为: 0-->3-->5 -->7-->10-->15
为了提高查找的效率,我们可以抽取链表中的一部分结点建立一个起“索引”作用的链,称为“索引层”或简称“索引”:

此时我们查找 15,首先在索引层中遍历,当我们扫描到值为 10 的结点时,由于下一结点值为 27,因此我们知道 15 应当在这两个结点之间,然后回到原链表中遍历即可找到值为 15 的结点,遍历过程如下图绿色箭头所示:

可以看到通过建立索引链,需要遍历的结点数得以减少,为了进一步减少所需遍历的结点数,可以通过对索引链添加索引,跳表是对链表叠加多级索引的数据结构。

1.2 跳表的性能

在由 n nn 个元素组成的简单链表中,要执行查找操作,在最坏的情况下需要进行 n nn 次比较。如果添加一级索引,由于每次可以跳过一个结点,则比较次数在最坏的情况下会下降到 ⌈ n 2 ⌉ + 1 \lceil \frac n 2 \rceil+ 1⌈2n​⌉+1;如果再添加一级索引,则最坏情况下比较次数可以减少至 ⌈ n 4 ⌉ + 2 \lceil \frac n 4 \rceil+ 2⌈4n​⌉+2;继续此策略,假设一共有 m mm 级索引,则最坏情况下比较的次数为 ⌈ n 2 m ⌉ + m \lceil \frac n {2^m} \rceil+ m⌈2mn​⌉+m。
设 m mm 层结点数为 2,则 n 2 m = 2 \frac n {2^m}=22mn​=2,可知跳表共 l o g n lognlogn 层,我们在遍历跳表时,由于每层需要比较的结点数为常数个,因此时间复杂度为 O ( l o g n ) O(logn)O(logn),并且在跳表中指针的数量仅增加了一倍( n + n 2 + n 4 + n 8 + n 16 + . . . . = 2 n ) (n + \frac n2 + \frac n4 + \frac n8 + \frac n {16} + .... = 2n)(n+2n​+4n​+8n​+16n​+....=2n)。

1.3 跳表与普通链表的异同

我们可以将跳表理解为排序后的链表,但与普通链表相比,有以下不同点:

  • 普通链表中的结点只有一个 next 指针,跳表中的结点有多个 next 指针;
  • 给定结点的 next 指针的数量是随机确定的。

跳表中结点的每个 next 指针称为一层,结点中的层数称为结点的大小,其决定了结点在链表中的层级;在普通的有序链表中,插入、删除和查找操作需要对链表依次遍历,因此每个操作的时间复杂度均为 O ( n ) O(n)O(n),跳表允许在遍历时跳过一些中间节点,每个操作的时间复杂度为 O ( l o g n ) O(logn)O(logn)。

2. 跳表的实现

跳表中的每个数据元素由一个结点表示,结点的层级在结点插入时随机选择,而不考虑数据结构中数据元素的数量。第 i ii 级结点有 i ii 个 next 指针(在结点实现时使用大小为 i ii 的数组 next 存储 i ii 个 next 指针),因此我们不需要在结点中存储结点的层级,使用最大层数 max_level 来限制层级上限。跳表的头结点具有从 1 级到 max_level 级的 next 指针。

2.1 跳表结点类

跳表的结点示意图如下所示,每个结点都有一组用于指向其它层级结点的指针域列表 next

  1. class Node:
  2. def __init__(self, data, level=0):
  3. self.data = data
  4. self.next = [None] * level
  5. def __str__(self):
  6. return "Node({}, {})".format(self.data, len(self.next))

next 数组用于保存指向不同层级结点的指针,其中每个元素就是一个 next 指针,而 data 变量用于存储数据,重载 __str__ 方法用于便于打印结点对象,len(self.next) 可以用于表示结点中的层数。

2.2 跳表的初始化

跳表的初始化是建立一个空的带头结点的跳表,其表长 length 初始化为 0,此时链表中没有元素结点,只有一个头结点:

  1. class SkipList:
  2. def __init__(self, max_level=8):
  3. self.max_level = max_level
  4. node = Node(Node, max_level)
  5. self.head = node
  6. self.length = 0

创建跳表 SkipList 对象的时间复杂度为 O ( 1 ) O(1)O(1)。

2.3 获取跳表长度

求取跳表长度只需要重载 __len__ 从对象返回 length 的值,因此时间复杂度为 O ( 1 ) O(1)O(1):

  1. def __len__(self):
  2. return self.length

2.4 读取指定位置元素

由于跳表中的每个结点的层级是在结点插入时随机选择的,因此读取指定位置的数据元素和单链表类似,需要顺序遍历第 0 层结点,操作的复杂度为 O ( n ) O(n)O(n),如果索引不在可接受的索引范围内,将引发 IndexError 异常::

  1. def __getitem__(self, index):
  2. if index > self.length - 1 or index < 0:
  3. raise IndexError("UnrolledLinkedList assignment index out of range")
  4. else:
  5. count = 0
  6. node = self.head.next[0]
  7. while count < index:
  8. node = node.next[0]
  9. count += 1
  10. return node.data

2.5 查找指定元素

跳表的查找操作从最上层开始,如果待查元素 value 小于当前层的后继结点的 data,则平移至当前层的后继结点;否则下移进入下一层,继续比较,直至第一层。

  1. def locate(self, value):
  2. node = self.head
  3. # 由于索引从0开始,因此第i层级的索引为i-1
  4. level = self.max_level - 1
  5. while level >= 0:
  6. while node.next[level] != None and node.next[level].data < value:
  7. # 平移到当前层的后继结点
  8. node = node.next[level]
  9. # 下移进入下一层
  10. level -= 1
  11. if node.next[0].data == value:
  12. return node.next[0]
  13. else:
  14. raise ValueError("{} is not in skip list".format(value))

2.6 在跳表中插入新元素

与普通链表不同,在跳表中插入新元素不能指定位置(需要保证有序性),需要通过查找确定新数据元素的插入位置。
插入元素前,首先需要确定该元素所占据的层数 level k,这是通过算法随机生成的,这样可以减少算法实现的复杂度,同时也可以保证跳表性能。

  1. def random_level(self, max_level):
  2. num = random.randint(1, 2**max_level -1)
  3. lognum = math.log(num, 2)
  4. level = int(math.floor(lognum))
  5. return max_level - level

然后需要在 level 1, level 2, ..., level k 各层的链表都插入新元素,为了达到此目的,我们需要在查找插入位置时维护一个列表 updateupdate 中的每个元素 update[i] 指向 level i 中小于插入元素 data 的最右边结点,即插入位置的左侧,如下图所示,插入元素 data = 9,随机层数 k=3

  1. def update_list(self, data):
  2. update = [None] * self.max_level
  3. node = self.head
  4. level = self.max_level - 1
  5. while level >= 0:
  6. while node.next[level] != None and node.next[level].data < data:
  7. node = node.next[level]
  8. update[level] = node
  9. level -= 1
  10. return update

可以看到维护 update 列表的过程与查找元素类似,根据 update 列表可以判断跳表中是否已存在元素 data,如果不存在将其插入跳表中:

  1. def insert_node(self, data):
  2. # 产生随机 level,并构造结点
  3. level = self.random_level(self.max_level)
  4. node = Node(data, level)
  5. # 获取 update 列表
  6. update = self.update_list(data)
  7. # 插入结点
  8. if len(update) == 0 or update[0].next[0] == None or update[0].next[0].data != data:
  9. self.length += 1
  10. for i in range(level):
  11. node.next[i] = update[i].next[i]
  12. update[i].next[i] = node

2.7 删除跳表中指定元素

删除指定元素与插入操作类似:

  1. def delete_node(self, data):
  2. # 获取 update 列表
  3. update = self.update_list(data)
  4. if len(update) > 0:
  5. node = update[0].next[0]
  6. # 删除指定元素结点
  7. if node != None and node.data == data:
  8. self.length -= 1
  9. for i in range(len(node.next)):
  10. update[i].next[i] = node.next[i]
  11. del node

2.8 其它一些有用的操作

2.7.1 跳表指定层元素输出

将跳表指定层转换为字符串以便进行打印,编写 print_level 方法打印指定层中数据元素:

  1. def get_level(self, level):
  2. """辅助函数,用于根据给定层构造结果字符串"""
  3. node = self.head.next[level]
  4. result = ''
  5. while node:
  6. result = result + str(node.data) + '-->'
  7. node = node.next[level]
  8. result += 'None'
  9. return result
  10. def print_level(self, level):
  11. print('level {}'.format(level))
  12. result = self.get_level(level)
  13. print(result)
2.7.2 跳表各层元素输出

可以借助上述辅助函数 get_level,使用 str 函数调用对象上的 __str__ 方法可以创建适合打印的字符串表示:

  1. def __str__(self):
  2. result = ''
  3. for i in list(range(self.max_level))[self.max_level-1:0:-1]:
  4. result = result + self.get_level(i) + '\n'
  5. result += self.get_level(0)
  6. return result

3. 跳表应用

接下来,我们将测试上述实现的链表,以验证操作的有效性。

3.1 跳表应用示例

首先初始化一个跳表 sl,并在其中插入若干元素:

  1. sl = SkipList(4)
  2. for i in range(0, 30, 3):
  3. sl.insert_node(i)

我们可以直接打印跳表中的数据元素、链表长度等信息:

  1. print('跳表 sl 各层元素为:')
  2. print(sl)
  3. print('跳表 sl 长度为:', len(sl))
  4. print('跳表 sl 第 2 个元素为:', sl[2])

以上代码输出如下:

  1. 跳表 sl 各层元素为:
  2. 9-->None
  3. 0-->9-->18-->None
  4. 0-->9-->18-->27-->None
  5. 0-->3-->6-->9-->12-->15-->18-->21-->24-->27-->None
  6. 跳表 sl 长度为: 10
  7. 跳表 sl 2 个元素为: 6

接下来,我们将演示在添加/删除元素、以及如何查找指定元素等:

  1. # 插入元素
  2. sl.insert_node(14)
  3. print('在跳表 sl 中插入数据 14 后:')
  4. print(sl)
  5. # 删除元素
  6. sl.delete_node(14)
  7. print('删除跳表 sl 中数据 14 后:')
  8. print(sl)
  9. # 查找数据元素 15
  10. print('查找跳表 sl 中数据元素 15:', sl.locate(15))

以上代码输出如下:

  1. 在跳表 sl 中插入数据 14 后:
  2. 9-->None
  3. 0-->9-->18-->None
  4. 0-->9-->14-->18-->27-->None
  5. 0-->3-->6-->9-->12-->14-->15-->18-->21-->24-->27-->None
  6. 删除跳表 sl 中数据 14 后:
  7. 9-->None
  8. 0-->9-->18-->None
  9. 0-->9-->18-->27-->None
  10. 0-->3-->6-->9-->12-->15-->18-->21-->24-->27-->None
  11. 查找跳表 sl 中数据元素 15 Node(15, 1)

相关链接

线性表基本概念
顺序表及其操作实现
单链表及其操作实现

相关文章