当前位置：首页 > news >正文

Python 数据结构详解：从原理到实践

news 2026/6/18 1:21:09

Python 数据结构详解：从原理到实践

1. 背景与动机

数据结构是计算机科学的基础，它定义了数据的组织和存储方式。选择合适的数据结构对于提高程序的效率和可读性至关重要。Python 提供了丰富的内置数据结构，如列表、元组、字典、集合等，同时也支持通过类和模块实现更复杂的数据结构。

理解并掌握 Python 数据结构的使用方法和原理，对于编写高效、清晰的代码非常重要：

提高程序效率：选择合适的数据结构可以显著提高程序的运行速度和内存使用效率
增强代码可读性：使用恰当的数据结构可以使代码更加清晰易懂
解决复杂问题：许多算法和问题的解决方案依赖于特定的数据结构
为高级编程奠定基础：理解数据结构是学习算法和高级编程的基础

2. 核心概念与原理

2.1 数据结构的基本概念

数据结构是指数据元素之间的组织方式和相互关系，它包括：

逻辑结构：数据元素之间的逻辑关系，如线性结构、树形结构、图结构等
物理结构：数据在计算机内存中的存储方式，如顺序存储、链式存储等
操作：对数据结构的操作，如插入、删除、查找、遍历等

2.2 Python 内置数据结构

数据结构	类型	可变	有序	重复元素	主要操作
列表 (list)	线性	是	是	是	索引、切片、追加、插入、删除
元组 (tuple)	线性	否	是	是	索引、切片
字典 (dict)	映射	是	否（Python 3.7+ 有序）	键唯一，值可重复	键值访问、添加、删除
集合 (set)	集合	是	否	否	添加、删除、交集、并集、差集
冻结集合 (frozenset)	集合	否	否	否	交集、并集、差集

2.3 时间复杂度分析

时间复杂度是衡量算法执行效率的重要指标，通常用大 O 符号表示：

操作	列表	字典/集合
访问元素	O(1)	O(1)
查找元素	O(n)	O(1)
插入元素	O(n)	O(1)
删除元素	O(n)	O(1)
遍历	O(n)	O(n)

3. Python 内置数据结构的使用

3.1 列表 (list)

列表是 Python 中最常用的数据结构之一，它是一个有序的、可变的元素集合。

# 创建列表 list1 = [1, 2, 3, 4, 5] list2 = list(range(10)) list3 = [x for x in range(10) if x % 2 == 0] # 列表推导式 # 访问元素 print(list1[0]) # 输出: 1 print(list1[-1]) # 输出: 5 # 切片 print(list1[1:3]) # 输出: [2, 3] print(list1[::2]) # 输出: [1, 3, 5] # 修改元素 list1[0] = 10 print(list1) # 输出: [10, 2, 3, 4, 5] # 添加元素 list1.append(6) # 末尾添加 print(list1) # 输出: [10, 2, 3, 4, 5, 6] list1.insert(1, 15) # 指定位置插入 print(list1) # 输出: [10, 15, 2, 3, 4, 5, 6] # 删除元素 list1.remove(15) # 删除指定值 print(list1) # 输出: [10, 2, 3, 4, 5, 6] popped = list1.pop() # 弹出末尾元素 print(popped, list1) # 输出: 6 [10, 2, 3, 4, 5] # 其他操作 print(len(list1)) # 长度 print(2 in list1) # 成员检查 list1.sort() # 排序 print(list1) # 输出: [2, 3, 4, 5, 10] list1.reverse() # 反转 print(list1) # 输出: [10, 5, 4, 3, 2]

3.2 元组 (tuple)

元组是一个有序的、不可变的元素集合，通常用于存储不希望被修改的数据。

# 创建元组 tuple1 = (1, 2, 3, 4, 5) tuple2 = tuple(range(10)) tuple3 = (1,) # 访问元素 print(tuple1[0]) # 输出: 1 print(tuple1[-1]) # 输出: 5 # 切片 print(tuple1[1:3]) # 输出: (2, 3) # 元组是不可变的，以下操作会报错 # tuple1[0] = 10 # TypeError: 'tuple' object does not support item assignment # 元组的优势：内存效率高，可作为字典键 # 元组的方法 print(tuple1.count(2)) # 计数 print(tuple1.index(3)) # 查找索引

3.3 字典 (dict)

字典是一种键值对存储结构，它提供了快速的查找能力。

# 创建字典 dict1 = {'a': 1, 'b': 2, 'c': 3} dict2 = dict(a=1, b=2, c=3) dict3 = {x: x**2 for x in range(5)} # 字典推导式 # 访问元素 print(dict1['a']) # 输出: 1 print(dict1.get('d', 0)) # 输出: 0（键不存在时返回默认值） # 修改元素 dict1['a'] = 10 print(dict1) # 输出: {'a': 10, 'b': 2, 'c': 3} # 添加元素 dict1['d'] = 4 print(dict1) # 输出: {'a': 10, 'b': 2, 'c': 3, 'd': 4} # 删除元素 del dict1['d'] print(dict1) # 输出: {'a': 10, 'b': 2, 'c': 3} popped = dict1.pop('b') print(popped, dict1) # 输出: 2 {'a': 10, 'c': 3} # 其他操作 print(len(dict1)) # 长度 print('a' in dict1) # 键检查 print(dict1.keys()) # 所有键 print(dict1.values()) # 所有值 print(dict1.items()) # 所有键值对 # 遍历字典 for key, value in dict1.items(): print(f"{key}: {value}")

3.4 集合 (set)

集合是一个无序的、不重复的元素集合，它提供了集合运算的功能。

# 创建集合 set1 = {1, 2, 3, 4, 5} set2 = set(range(10)) set3 = set([1, 2, 2, 3, 3, 3]) # 自动去重 # 添加元素 set1.add(6) print(set1) # 输出: {1, 2, 3, 4, 5, 6} # 删除元素 set1.remove(6) # 元素不存在时会报错 print(set1) # 输出: {1, 2, 3, 4, 5} set1.discard(10) # 元素不存在时不会报错 popped = set1.pop() # 弹出任意元素 print(popped, set1) # 输出: 1 {2, 3, 4, 5} # 集合运算 set_a = {1, 2, 3, 4, 5} set_b = {4, 5, 6, 7, 8} print(set_a.union(set_b)) # 并集: {1, 2, 3, 4, 5, 6, 7, 8} print(set_a.intersection(set_b)) # 交集: {4, 5} print(set_a.difference(set_b)) # 差集: {1, 2, 3} print(set_a.symmetric_difference(set_b)) # 对称差集: {1, 2, 3, 6, 7, 8} # 子集和超集 print(set_a.issubset(set_b)) # False print(set_a.issuperset(set_b)) # False

4. 高级数据结构的实现

4.1 栈 (Stack)

栈是一种后进先出（LIFO）的数据结构，可以使用列表实现。

class Stack: def __init__(self): self.items = [] def is_empty(self): return len(self.items) == 0 def push(self, item): self.items.append(item) def pop(self): if not self.is_empty(): return self.items.pop() raise IndexError("Stack is empty") def peek(self): if not self.is_empty(): return self.items[-1] raise IndexError("Stack is empty") def size(self): return len(self.items) # 使用栈 s = Stack() s.push(1) s.push(2) s.push(3) print(s.peek()) # 输出: 3 print(s.pop()) # 输出: 3 print(s.size()) # 输出: 2

4.2 队列 (Queue)

队列是一种先进先出（FIFO）的数据结构，可以使用collections.deque实现。

from collections import deque class Queue: def __init__(self): self.items = deque() def is_empty(self): return len(self.items) == 0 def enqueue(self, item): self.items.append(item) def dequeue(self): if not self.is_empty(): return self.items.popleft() raise IndexError("Queue is empty") def front(self): if not self.is_empty(): return self.items[0] raise IndexError("Queue is empty") def size(self): return len(self.items) # 使用队列 q = Queue() q.enqueue(1) q.enqueue(2) q.enqueue(3) print(q.front()) # 输出: 1 print(q.dequeue()) # 输出: 1 print(q.size()) # 输出: 2

4.3 链表 (Linked List)

链表是一种线性数据结构，其中的元素通过指针连接。

class Node: def __init__(self, data): self.data = data self.next = None class LinkedList: def __init__(self): self.head = None def is_empty(self): return self.head is None def append(self, data): new_node = Node(data) if self.is_empty(): self.head = new_node return current = self.head while current.next: current = current.next current.next = new_node def prepend(self, data): new_node = Node(data) new_node.next = self.head self.head = new_node def delete(self, data): if self.is_empty(): return if self.head.data == data: self.head = self.head.next return current = self.head while current.next: if current.next.data == data: current.next = current.next.next return current = current.next def display(self): elements = [] current = self.head while current: elements.append(current.data) current = current.next print(elements) # 使用链表 ll = LinkedList() ll.append(1) ll.append(2) ll.append(3) ll.prepend(0) ll.display() # 输出: [0, 1, 2, 3] ll.delete(2) ll.display() # 输出: [0, 1, 3]

4.4 二叉树 (Binary Tree)

二叉树是一种树形数据结构，每个节点最多有两个子节点。

class TreeNode: def __init__(self, data): self.data = data self.left = None self.right = None class BinaryTree: def __init__(self): self.root = None def insert(self, data): if self.root is None: self.root = TreeNode(data) else: self._insert_recursive(data, self.root) def _insert_recursive(self, data, node): if data < node.data: if node.left is None: node.left = TreeNode(data) else: self._insert_recursive(data, node.left) else: if node.right is None: node.right = TreeNode(data) else: self._insert_recursive(data, node.right) def inorder_traversal(self, node): if node: self.inorder_traversal(node.left) print(node.data, end=' ') self.inorder_traversal(node.right) def preorder_traversal(self, node): if node: print(node.data, end=' ') self.preorder_traversal(node.left) self.preorder_traversal(node.right) def postorder_traversal(self, node): if node: self.postorder_traversal(node.left) self.postorder_traversal(node.right) print(node.data, end=' ') # 使用二叉树 tree = BinaryTree() tree.insert(5) tree.insert(3) tree.insert(7) tree.insert(2) tree.insert(4) tree.insert(6) tree.insert(8) print("Inorder traversal:") tree.inorder_traversal(tree.root) # 输出: 2 3 4 5 6 7 8 print("\nPreorder traversal:") tree.preorder_traversal(tree.root) # 输出: 5 3 2 4 7 6 8 print("\nPostorder traversal:") tree.postorder_traversal(tree.root) # 输出: 2 4 3 6 8 7 5

5. 数据结构的应用

5.1 列表的应用：冒泡排序

def bubble_sort(arr): n = len(arr) for i in range(n): swapped = False for j in range(0, n-i-1): if arr[j] > arr[j+1]: arr[j], arr[j+1] = arr[j+1], arr[j] swapped = True if not swapped: break return arr # 测试 arr = [64, 34, 25, 12, 22, 11, 90] print(bubble_sort(arr)) # 输出: [11, 12, 22, 25, 34, 64, 90]

5.2 字典的应用：词频统计

def word_frequency(text): words = text.lower().split() freq = {} for word in words: # 去除标点符号 word = ''.join(char for char in word if char.isalnum()) if word: freq[word] = freq.get(word, 0) + 1 return freq # 测试 text = "Hello world! Hello Python. Python is great." print(word_frequency(text)) # 输出: {'hello': 2, 'world': 1, 'python': 2, 'is': 1, 'great': 1}

5.3 栈的应用：括号匹配

def is_valid_parentheses(s): stack = [] mapping = {')': '(', '}': '{', ']': '['} for char in s: if char in mapping: top_element = stack.pop() if stack else '#' if mapping[char] != top_element: return False else: stack.append(char) return not stack # 测试 print(is_valid_parentheses("()")) # True print(is_valid_parentheses("()[]{}")) # True print(is_valid_parentheses("(]")) # False print(is_valid_parentheses("([)]")) # False print(is_valid_parentheses("{[]}")) # True

5.4 队列的应用：广度优先搜索

def bfs(graph, start): visited = set() queue = [] queue.append(start) visited.add(start) while queue: vertex = queue.pop(0) print(vertex, end=' ') for neighbor in graph[vertex]: if neighbor not in visited: visited.add(neighbor) queue.append(neighbor) # 测试 graph = { 'A': ['B', 'C'], 'B': ['D', 'E'], 'C': ['F'], 'D': [], 'E': ['F'], 'F': [] } bfs(graph, 'A') # 输出: A B C D E F

6. 代码优化建议

6.1 列表操作优化

# 优化前：频繁在列表开头插入元素 l = [] for i in range(10000): l.insert(0, i) # 时间复杂度 O(n) # 优化后：使用 deque from collections import deque l = deque() for i in range(10000): l.appendleft(i) # 时间复杂度 O(1)

6.2 字典操作优化

# 优化前：使用多个键值对初始化字典 d = {} d['a'] = 1 d['b'] = 2 d['c'] = 3 # 优化后：使用字典字面量 d = {'a': 1, 'b': 2, 'c': 3} # 优化前：使用 get() 方法获取值 if 'key' in d: value = d['key'] else: value = default_value # 优化后：使用 get() 方法的默认值参数 value = d.get('key', default_value)

6.3 集合操作优化

# 优化前：使用列表去重 l = [1, 2, 2, 3, 3, 3] unique = [] for item in l: if item not in unique: unique.append(item) # 优化后：使用集合去重 unique = list(set(l)) # 优化前：检查元素是否在列表中 if item in l: # 时间复杂度 O(n) pass # 优化后：使用集合检查 if item in set(l): # 时间复杂度 O(1) pass

6.4 数据结构选择优化

场景	推荐数据结构	原因
频繁访问元素	列表	索引访问 O(1)
频繁查找元素	字典/集合	查找 O(1)
频繁插入/删除元素	链表	插入/删除 O(1)
实现 LIFO 操作	栈	后进先出
实现 FIFO 操作	队列	先进先出
层次结构	树	适合表示层次关系
网络关系	图	适合表示复杂关系