当前位置：首页 > news >正文

强化学习入门（二）：探索与开发的博弈——从ε-greedy到UCB

news 2026/4/23 2:45:05

1. 从老虎机到强化学习：探索与开发的核心矛盾

想象你走进一家赌场，面前摆着十台老虎机。每台机器的中奖概率不同，但你不知道具体是多少。这时候你会怎么做？是坚持玩最初那台看起来还不错的机器，还是不断尝试其他机器寻找更高回报？这个看似简单的选择，恰恰揭示了强化学习中最核心的难题——探索与开发的博弈。

在强化学习中，我们把这个经典问题称为K臂老虎机问题（k-armed Bandit Problem）。这里的"臂"（arm）就是老虎机的拉杆，每个拉杆对应不同的奖励概率分布。作为玩家，我们需要在有限次尝试中，找到回报最高的那个拉杆。听起来简单？实际操作中却充满挑战：如果过早锁定某个拉杆，可能会错过真正的高回报选项；但如果不停切换尝试，又会浪费太多机会在低回报选项上。

我在实际项目中遇到过类似场景：设计一个新闻推荐系统时，系统需要在保持用户兴趣（开发已知偏好）和探索新内容类型（寻找潜在兴趣）之间找到平衡。初期我们使用简单粗暴的ε-greedy策略，结果要么推荐太过保守，要么让用户感到混乱。这让我深刻体会到：没有放之四海而皆准的策略，只有最适合当前场景的权衡。

2. ε-greedy：简单但有效的入门策略

2.1 基本原理与实现

ε-greedy可能是最直观的探索-开发平衡策略。它的逻辑非常简单：大部分时间（1-ε概率）选择当前认为最好的动作（开发），小部分时间（ε概率）随机选择其他动作（探索）。比如设置ε=0.1，就意味着90%的时间选择最优动作，10%的时间随机探索。

用Python实现一个基础的ε-greedy策略只需要几行代码：

import numpy as np class EpsilonGreedy: def __init__(self, epsilon, n_arms): self.epsilon = epsilon self.n_arms = n_arms self.Q = np.zeros(n_arms) # 各臂的价值估计 self.N = np.zeros(n_arms) # 各臂的尝试次数 def choose_action(self): if np.random.random() < self.epsilon: return np.random.randint(self.n_arms) # 探索 else: return np.argmax(self.Q) # 开发 def update(self, arm, reward): self.N[arm] += 1 self.Q[arm] += (reward - self.Q[arm]) / self.N[arm] # 增量式更新

我在电商推荐系统中测试过这个算法。当商品数量较少时（比如50个SKU），即使简单的ε=0.1设置也能取得不错效果。但随着商品数量增加到上千个，固定ε值导致探索成本过高——太多流量被浪费在明显低效的商品上。

2.2 ε值的动态调整策略

固定ε值最大的问题是无法适应不同阶段的需求：初期需要大量探索，后期则应侧重开发。这引出了衰减ε-greedy策略——让ε随时间或经验逐步降低。常见衰减方式包括：

线性衰减：εₜ = max(ε₀ - kt, ε_min)
指数衰减：εₜ = ε₀ * γ^t
反比例衰减：εₜ = ε₀ / (1 + dt)

实践中我发现反比例衰减在多数场景下表现最稳定。以下是改进后的代码：

class DecayingEpsilonGreedy(EpsilonGreedy): def __init__(self, epsilon, n_arms, decay=0.01): super().__init__(epsilon, n_arms) self.decay = decay self.t = 0 def choose_action(self): self.t += 1 current_epsilon = self.epsilon / (1 + self.decay * self.t) if np.random.random() < current_epsilon: return np.random.randint(self.n_arms) return np.argmax(self.Q)

在广告点击率预测的A/B测试中，动态ε策略相比固定值提升了约15%的累计收益。特别是在测试初期，它能更快锁定高潜力广告位，避免了传统方法需要手动调整ε的麻烦。

3. 超越ε-greedy：UCB的置信区间策略

3.1 UCB的核心思想

ε-greedy有个根本缺陷：探索时完全随机，没有考虑哪些动作更值得探索。**上置信界算法（UCB）**则聪明得多——它通过数学公式量化每个动作的"探索潜力"，优先探索潜力大的动作。

UCB的选择公式看起来有些复杂，但拆解后很容易理解：

Aₜ = argmax[Qₜ(a) + c√(ln t / Nₜ(a))]

其中：

Qₜ(a)是当前价值估计（开发项）
√(ln t / Nₜ(a))是置信区间宽度（探索项）
c是调节参数

这个公式的美妙之处在于：它自动平衡了开发已知最优和探索尝试不足的动作。一个动作如果尝试次数（Nₜ(a)）很少，或者总尝试次数（t）很多，都会增加其探索项的值。

3.2 UCB的实现与调优

实现UCB只需要修改选择逻辑：

class UCB: def __init__(self, n_arms, c=2): self.n_arms = n_arms self.c = c self.Q = np.zeros(n_arms) self.N = np.zeros(n_arms) self.t = 0 def choose_action(self): self.t += 1 # 确保每个动作至少被尝试一次 if self.t <= self.n_arms: return self.t - 1 ucb_values = self.Q + self.c * np.sqrt(np.log(self.t) / (self.N + 1e-5)) return np.argmax(ucb_values) def update(self, arm, reward): self.N[arm] += 1 self.Q[arm] += (reward - self.Q[arm]) / self.N[arm]

参数c控制探索强度，通常设置为1-2之间。我在游戏难度调整系统中对比过不同c值：