当前位置：首页 > news >正文

复杂度的均摊分析法

news 2026/6/25 15:12:20

动态数组的尾插push_back，有时会触发扩容；
一旦扩容，就要申请更大的内存、搬运旧元素、再插入新元素。某一次操作的代价完全可能是 O(n)O(n)
但是，动态数组尾插的复杂度是均摊 O(1)O(1)

类似的现象其实非常多：单看某一次操作，它们都可能很贵；但把它们放到足够长的操作序列里，平均到每一步，复杂度却仍然很低。均摊分析研究的正是这种现象。

平均情况分析 vs 均摊分析

均摊分析和平均情况分析（average-case analysis）不是同一个概念。

平均情况分析通常要假设输入服从某种概率分布，然后计算期望成本。比如快速排序的平均复杂度分析，核心就在于对输入或主元分布做假设。例如，快速排序平均是 O(nlog⁡n)O(nlogn) 的，但最坏可能是平方复杂度。

均摊分析则不同。它不依赖概率和输入，一个 vector 无论怎样尾插，均摊复杂度也是 O(1)O(1) 。

我们可以定义：对于一个数据结构的一段操作序列

σ=(o1,o2,…,om),σ=(o1,o2,…,om),

如果总实际成本是

C(σ)=∑i=1mci,C(σ)=i=1∑mci,

能否证明存在某个函数 f(m)f(m)，使得

C(σ)≤m⋅f(m)。C(σ)≤m⋅f(m)。

如果可以，那么就说这类操作的均摊复杂度是 f(m)f(m)。可以理解为，均摊分析给出的是“整段序列的总账不贵”的承诺。于是，均摊 O(1)O(1) 并不意味着每次操作都只花常数时间，它真正的含义是：在任意长的合法操作序列里，总成本相比操作次数的复杂度没有那么高。

经典例子：动态数组

动态数组是本文最好的主线。假设一个动态数组有两个状态量：

size：当前元素个数
capacity：当前容量

执行push_back(x)时：

若size < capacity，直接写入，成本记为 11；
若size = capacity，则申请一个两倍大的新数组，把旧元素全部搬过去，再插入新元素。若旧容量为 kk，那么这次成本记为 k+1k+1。

单次最坏显然是线性的；但长期看却是均摊常数。下面分别用三种方法来理解它。

聚合法：直接算前 nn 次操作的总成本

聚合法直接计算多步的总成本。由于每次扩容是两倍，数组容量会按 1,2,4,8,…1,2,4,8,… 这样翻倍增长。做完前 nn 次插入时，普通写入本身一共发生了 nn 次，成本是 nn。除此之外，还会发生若干次扩容搬运，搬运量依次是 1+2+4+⋯+2k−1,1+2+4+⋯+2k−1,，其中 2k−1<n≤2k2k−1<n≤2k 。于是

1+2+4+⋯+2k−1<2k≤2n。1+2+4+⋯+2k−1<2k≤2n。

所以总成本满足

C(n)≤n+2n=3n。C(n)≤n+2n=3n。

也就是说，前 nn 次push_back的总成本是 O(n)O(n)，因此平均到每次操作，复杂度就是 O(1)O(1)。

这个证明非常重要，因为它第一次把“偶尔很贵”和“长期很便宜”这两个看似矛盾的结论接起来了。扩容确实贵，但扩容发生得足够稀疏，所以总账仍然可控。