当前位置：首页 > news >正文

别再死记硬背了！从‘放回抽球’到‘文本生成’，图解马尔可夫链的无记忆性

news 2026/6/8 17:33:09

从抽球游戏到智能写作：揭秘马尔可夫链的"无记忆"魔法

1. 当概率遇上记忆：两个抽球实验的启示

想象你面前有两个不透明的袋子：A袋装有3个红球和7个蓝球，B袋装有6个红球和4个蓝球。现在进行两组不同的实验：

实验一（有记忆版本）：

从A袋随机取出一个球，记录颜色后不放回
根据取出球的颜色决定下一步：
- 若取出红球，下次从B袋抽取
- 若取出蓝球，下次继续从A袋抽取
重复这个过程，每次抽取后都不放回球

实验二（无记忆版本）：

从A袋随机取出一个球，记录颜色后立即放回
使用与实验一完全相同的转移规则
每次抽取前袋中球的总数和组成始终不变

这两个看似微小的差异导致了本质区别。在实验一中，每次抽取后袋中球的组成都会改变，这意味着：

下一次抽到红球的概率不仅取决于当前在哪个袋子
还取决于之前所有抽取的历史记录（因为球被拿走了）

而在实验二中，由于每次都放回球，系统表现出典型的马尔可夫性质：

下一次结果仅取决于当前在哪个袋子
与之前的所有抽取历史完全无关

这个简单的对比揭示了马尔可夫链的核心特征：系统的未来行为只依赖于当前状态，与如何到达当前状态的路径无关。

2. 数学视角下的无记忆性：转移概率矩阵

将上述抽球实验抽象化，我们得到马尔可夫链的数学定义。设系统有N个可能的状态（如袋子A、袋子B），用一个N×N的矩阵表示状态间的转移概率：

当前状态 \ 下一状态	袋子A	袋子B
袋子A	0.7	0.3
袋子B	0.9	0.1

这个矩阵告诉我们：

如果现在在袋子A，下次仍留在A的概率是70%，转移到B的概率是30%
如果现在在袋子B，下次回到A的概率是90%，留在B的概率是10%

通过矩阵乘法，我们可以计算多步后的状态分布。例如初始在A袋，两步后的概率分布为：

import numpy as np transition = np.array([[0.7, 0.3], [0.9, 0.1]]) initial = np.array([1.0, 0.0]) # 初始在A袋 # 计算两步转移 two_step = initial @ np.linalg.matrix_power(transition, 2) print(two_step) # 输出：[0.76 0.24]

计算结果表示两步后：

在A袋的概率为76%
在B袋的概率为24%

3. 从数学到文字：N-gram语言模型的构建

马尔可夫链在自然语言处理中最典型的应用就是N-gram模型。以最简单的bigram（2-gram）模型为例，它假设：

下一个词的出现仅取决于当前词
与更早的上下文无关

构建一个bigram文本生成器的步骤：

语料预处理：
- 将文本分割成单词序列
- 添加开始和结束标记
统计转移频率：
- 记录每个词后面跟随其他词的次数
- 例如："the cat sat on the mat"会生成：
  - the → cat (1次)
  - cat → sat (1次)
  - sat → on (1次)
  - on → the (1次)
  - the → mat (1次)
计算转移概率：
- 对每个词，计算其后接词的条件概率
- 例如"the"出现2次，后接"cat"和"mat"各1次：
  - P(cat|the) = 0.5
  - P(mat|the) = 0.5
文本生成：
- 从开始标记出发
- 根据当前词的转移概率随机选择下一个词
- 直到遇到结束标记

from collections import defaultdict import random def build_bigram_model(corpus): model = defaultdict(lambda: defaultdict(int)) for sentence in corpus: words = sentence.split() for i in range(len(words)-1): current, next_word = words[i], words[i+1] model[current][next_word] += 1 # 转换为概率 for current in model: total = sum(model[current].values()) for next_word in model[current]: model[current][next_word] /= total return model def generate_text(model, start, max_length=20): current = start output = [current] for _ in range(max_length): if current not in model or not model[current]: break next_words = list(model[current].keys()) weights = list(model[current].values()) current = random.choices(next_words, weights=weights)[0] output.append(current) return ' '.join(output)

4. 超越基础：马尔可夫链的进阶应用

虽然简单的马尔可夫模型有局限性，但通过一些技巧可以显著提升效果：

平滑技术：

Add-k平滑：给所有可能的n-gram加上一个小的计数值k
回退：当高阶n-gram不存在时，使用低阶n-gram估计

混合模型：

结合不同阶数的n-gram（如同时使用unigram和bigram）
通过插值赋予不同模型权重

实际应用中的优化：

使用Trie树高效存储n-gram
应用对数概率避免数值下溢
引入温度参数控制生成多样性

在实际项目中，纯马尔可夫模型往往作为基线系统，现代方法通常将其与神经网络等结合。但理解这个基础模型的工作原理，对掌握更复杂的序列建模技术至关重要。

5. 从理论到实践：一个完整的文本生成案例

让我们用Python实现一个完整的马尔可夫链文本生成器，处理真实文本数据：

准备数据：

corpus = [ "the quick brown fox jumps over the lazy dog", "a quick brown dog jumps over the lazy fox", "the lazy fox is quick and brown", "the dog is lazy but the fox is quick" ]

构建模型：

model = build_bigram_model(corpus) # 查看部分转移概率 print("'the'的后续词分布:", dict(model['the'])) # 输出: {'quick': 0.25, 'lazy': 0.5, 'dog': 0.25}

生成文本：

for i in range(5): print(f"生成文本 {i+1}:", generate_text(model, start="the"))

可能的输出示例：

生成文本 1: the lazy fox is quick and brown 生成文本 2: the dog is lazy but the fox is quick 生成文本 3: the quick brown fox jumps over the lazy dog 生成文本 4: the lazy fox jumps over the lazy fox is quick 生成文本 5: the quick brown dog is lazy but the lazy fox

虽然生成的句子有时会陷入循环或不完全合理，但这个简单模型已经能够捕捉基本的语言结构。在实际应用中，可以通过以下方式改进：