当前位置：首页 > news >正文

老码农和你一起学AI系列：语言模型采样方法

news 2026/3/27 0:50:07

语言模型在生成文本时，每一步都会计算出下一个词的概率分布（比如“吃”：0.4，“喝”：0.3，“玩”：0.2……）。那么，具体选哪个词作为输出呢？这就涉及采样方法。根据是否追求“概率最大化”，这些方法可以分为两大类：确定性方法（总是选最可能的词）和随机采样方法（按概率随机抽取）。下面我们分别详解。

一、概率最大化方法

这类方法的核心思想是：每一步都选择概率最高的词，或者在整个序列层面寻找概率最高的组合。它们生成的结果是确定的，即同样的输入永远得到同样的输出。

1. 贪心搜索（Greedy Search）

做法：每一步直接挑出概率最大的那个词。
例子：预测下一个词时，“吃”概率0.4最大，那就输出“吃”。
优点：简单、速度快，适合对准确性和确定性要求高的任务，如机器翻译、拼写检查。
缺点：
- 容易陷入重复循环（如“好的好的好的……”）。
- 缺乏多样性，生成的文本死板。
- 局部最优不一定全局最优——当前选最可能的词，但连成句子后可能不如另一个稍低概率的词开头整体通顺。

2. 束搜索（Beam Search）

做法：为了缓解贪心搜索的短视，束搜索每一步保留概率最高的k 个候选序列（k 称为束宽）。最后从这 k 个完整序列中选择总概率最高的一个。
例子：束宽=2，第一步保留“吃”（0.4）和“喝”（0.3）两个开头；第二步对每个开头分别计算下一个词的概率，再保留总概率最高的两个序列……直到句子结束。
优点：比贪心搜索更可能找到全局最优序列，在机器翻译、摘要生成等任务中表现优秀。
缺点：
- 依然倾向于生成保守、常见的句子，缺乏惊喜。
- 随着束宽增大，计算量增加，且可能生成过于通用的结果（比如“我不知道”之类的安全回答）。

总结：概率最大化方法追求精准和稳定，适合需要明确答案的场景，但不适合需要创造力的开放式生成。

二、随机采样方法

这类方法的核心是：按照模型给出的概率分布进行随机抽样，概率高的词被抽中的几率大，但概率低的也有可能被选中。这样生成的文本具有多样性，每次输出都可能不同。

1. 原始随机采样（Random Sampling）

做法：直接以模型输出的概率分布为权重，随机抽取一个词。
例子：“吃”占40%面积，“喝”占30%，“玩”占20%……做一个不均匀的骰子，掷出哪个就选哪个。
优点：完全尊重模型学到的分布，引入自然多样性。
缺点：有可能抽到概率极低的词（比如“吃石头的”），导致生成不连贯或无意义的句子。

2. 温度采样（Temperature Sampling）

做法：在应用softmax之前，将模型的输出 logits 除以一个温度参数T，改变分布的陡峭程度。
- T < 1：分布变得更尖锐，高概率词更突出，模型更“保守”。
- T = 1：保持原始分布。
- T > 1：分布变平滑，低概率词被选中的机会增加，模型更“有创意”。
优点：通过调节 T 可以灵活控制随机性和确定性之间的平衡。
缺点：仍然无法完全避免抽取到离谱的低概率词（即使平滑后，那些原本极低的词依然可能被选中）。

3. Top-k 采样

做法：每一步只保留概率最高的k个词，然后重新归一化这 k 个词的概率，再从中随机采样。
例子：k=3，那么只考虑“吃”“喝”“玩”这三个词，忽略所有其他词，然后在这三个词中按归一化概率采样。
优点：截断了长尾的低概率词，保证候选词都是模型比较“确信”的，生成更稳定。
缺点：k 是固定值，不能适应不同上下文。有时有效词可能少于 k 个（会强行拉进一些不太相关的词），有时有效词可能多于 k 个（会遗漏好词）。

4. Top-p 采样（核采样，Nucleus Sampling）

做法：设定一个概率阈值p（如0.9），然后从累计概率超过 p 的最小词集合中采样。这个集合的大小会根据当前分布动态变化。
例子：如果“吃”(0.4)+“喝”(0.3)+“玩”(0.2)累计概率正好0.9，那么这三个词就是候选集。如果下一个词分布非常集中，可能两个词就达到0.9；如果分布分散，候选集会更大。
优点：动态调整候选集大小，既能截断不合理低概率词，又能保留多样性和适应性，是目前开放式文本生成（如对话、故事生成）中最常用的方法。
缺点：相比 top-k 稍复杂，但现代库都高效支持。

三、两大类的对比与选择

方面	概率最大化方法	随机采样方法
输出确定性	确定，同输入同输出	随机，同输入可不同输出
多样性	低，容易重复	高，每次可能不同
风险	死板、保守	可能不连贯、跑题
适用场景	机器翻译、摘要、问答（答案唯一）	对话、故事生成、创意写作（需要多样性）
常用技巧	束搜索、贪心	温度、top-k、top-p