当前位置：首页 > news >正文

多臂老虎机：探索与利用的平衡艺术及其在智能决策中的应用

news 2026/6/3 5:23:39

1. 项目概述：从老虎机到智能决策的桥梁

“多臂老虎机”这个名字听起来有点游戏化，但它实际上是决策理论、统计学和机器学习交叉领域里一个极其经典且强大的模型。我第一次接触这个概念，是在为一个在线广告投放系统做优化时遇到的。当时我们面临一个典型困境：手上有几十个新设计的广告创意，但预算和用户流量有限，我们既想快速找出哪个创意的点击率最高（“利用”已知最优），又不敢把所有预算都押在最初表现好的几个上，因为可能还有未被发现的“黑马”（“探索”未知可能）。这个“探索与利用”的两难，正是多臂老虎机要解决的核心问题。

你可以把它想象成站在一排老虎机（俗称“单臂强盗机”）前，每台机器的中奖概率（即“期望收益”）都不同，但你不知道。你手里有一笔代币，目标是通过一系列“拉杆”操作，最大化你的总收益。如果你每次都拉你认为当前收益最高的那台机器（纯利用），你可能会错过一台中奖概率更高、但初期运气不佳的机器。如果你总在尝试不同的机器（纯探索），又会浪费很多代币在低概率的机器上。多臂老虎机算法，就是一套数学框架和策略，指导你如何聪明地分配“拉杆”次数，在探索和利用之间找到最佳平衡，最终实现长期收益的最大化。

这个模型的应用场景远不止赌博或广告。从临床医学中测试不同治疗方案的有效性，到金融领域的投资组合选择；从网站UI的A/B测试优化，到推荐系统为新用户快速匹配兴趣内容；甚至是在机器人学中让智能体学习最优动作序列，其底层逻辑都离不开多臂老虎机。它处理的是在不确定性下进行序贯决策这一普遍问题。理解它的基本原理，就等于掌握了一把打开众多智能决策系统大门的钥匙。无论你是算法工程师、数据科学家，还是产品经理，了解多臂老虎机都能让你在设计实验和制定策略时，拥有更扎实的理论基础和更高效的实用工具。

2. 核心问题拆解：探索与利用的永恒博弈

多臂老虎机问题的魅力，在于它用一个极其简洁的模型，封装了一个极其深刻的决策困境。要真正理解各类算法，我们必须先把这个核心困境掰开揉碎。

2.1 探索与利用的数学定义与权衡

从形式上看，一个经典的多臂老虎机问题包含K个臂（或称“行动”）。每个臂i都对应一个奖励概率分布，我们通常关心其期望奖励μ_i。但μ_i对我们来说是未知的。在每一轮t，我们选择一个臂A_t，然后获得一个来自该臂奖励分布的随机奖励R_t。我们的目标是最大化一段时间内的累积奖励，或者说，最小化“遗憾”。

这里就引出了“遗憾”这个关键概念。它衡量的是我们的策略与“全知全能”策略之间的性能差距。全知全能策略，就是那个从一开始就知道哪个臂期望奖励最高的策略，它会一直选择最优臂。假设最优臂的期望奖励是μ*，我们在T轮后的累积遗憾Regret(T)定义为：Regret(T) = T * μ* - Σ_{t=1}^{T} E[R_t]。简单说，就是我们因为不知道最优臂而“损失”的奖励总和。

所有算法的设计目标，最终都可以归结为最小化累积遗憾的增长速度。而探索与利用的权衡，正是为了达成这个目标。利用，指的是根据当前已有的经验，选择目前看起来平均奖励最高的臂，旨在获取即时的收益。探索，则是指尝试那些目前看起来不是最优的臂，旨在收集更多信息，以改进未来的决策，避免错过潜在的最优臂。

一个纯利用的策略（如一直选当前样本均值最高的臂）会很快陷入局部最优，如果初始估计有偏差，就可能永远发现不了真正的最优臂，导致遗憾线性增长（Regret(T) ∝ T）。一个纯探索的策略（如随机均匀选择臂）虽然能保证最终识别出最优臂，但在过程中浪费了大量机会在次优臂上，其遗憾也是线性增长。优秀的算法，必须动态、智能地平衡二者，使得遗憾增长的速度尽可能慢——理想情况下是亚线性的，比如Regret(T) ∝ log(T)，这意味着随着时间推移，我们每轮的平均遗憾趋近于零。

2.2 问题设定的关键变体

经典的多臂老虎机设定有几个关键假设，放松这些假设就衍生出了一系列重要的变体，对应着不同的现实场景：

上下文老虎机：这是在实际应用中最为常见的扩展。在每一轮，除了臂本身，我们还能观测到一个与当前回合相关的“上下文”信息。例如，在新闻推荐中，臂是不同的文章，上下文是用户的特征（年龄、地理位置、历史点击）。目标是学习一个映射函数，根据给定的上下文选择最优的臂。这大大增加了问题的实用性，也引入了函数逼近（如使用线性模型、神经网络）的挑战。
对抗性老虎机：在经典设定中，每个臂的奖励分布是固定的（随机性但稳定）。而在对抗性设定中，一个“对手”可以根据我们过去的策略，在每个回合为每个臂任意选择奖励（在某个范围内）。这模拟了竞争环境或非平稳环境。此时，遗憾的定义是相对于最佳固定臂而言的。这类问题需要像EXP3这样的算法，其思想类似于在在线学习中引入随机性来应对对抗。
贝叶斯老虎机：如果我们对每个臂的奖励分布有一个先验信念（例如，我们认为所有臂的点击率大致在2%左右，但不确定具体是哪个），那么这个问题就可以用贝叶斯框架来建模。汤普森采样是这类方法中最著名、也最实用的算法。它通过从当前的后验分布中采样来决策，天然地实现了探索与利用的平衡：一个臂的不确定性（后验分布的方差）越大，其参数被采样得“看起来”最优的概率也越大，从而被探索的机会就越多。

理解这些变体非常重要，因为现实世界的问题很少完全符合经典的、非上下文、随机性的设定。选择哪种模型框架，是解决实际问题的第一步。

3. 经典算法原理与实现剖析

理论说清楚了，我们来看看具体怎么干。下面我挑几个最核心、最具代表性的算法，结合我自己的使用经验，拆解它们的原理和实现细节。

3.1 ε-贪心算法：简单粗暴的起点

这是最直观、最容易实现的算法。它的策略很简单：以概率 1-ε 选择当前平均奖励最高的臂（利用），以概率 ε 随机均匀选择一个臂（探索）。其中 ε 是一个小的常数，比如 0.1。

实现要点：

我们需要为每个臂维护两个变量：该臂被选择的累计次数 N_i，以及获得的累计奖励总和 S_i。
每个臂的平均奖励估计值为 Q_i = S_i / N_i。
在每一轮，生成一个[0,1]之间的随机数。如果这个数小于 ε，则随机选一个臂；否则，选择 Q_i 最大的臂（如果多个臂并列，随机选一个）。
更新所选臂的 N_i 和 S_i。

import numpy as np class EpsilonGreedy: def __init__(self, n_arms, epsilon=0.1): self.n_arms = n_arms self.epsilon = epsilon self.counts = np.zeros(n_arms) # N_i self.values = np.zeros(n_arms) # Q_i def select_arm(self): if np.random.random() < self.epsilon: # 探索：随机选择 return np.random.randint(self.n_arms) else: # 利用：选择当前估值最高的臂 # 处理多个臂估值相同的情况 return np.random.choice(np.where(self.values == self.values.max())[0]) def update(self, chosen_arm, reward): # 更新计数 self.counts[chosen_arm] += 1 n = self.counts[chosen_arm] # 增量更新均值：新均值 = 旧均值 + (1/n)*(新奖励 - 旧均值) old_value = self.values[chosen_arm] self.values[chosen_arm] = old_value + (reward - old_value) / n

注意：ε 的选择是个艺术。ε 太大（如0.5），探索过度，性能接近随机选择，遗憾线性增长。ε 太小（如0.01），探索不足，可能永远无法确认最优臂，也导致长期遗憾较高。一个常见的改进是让 ε 随时间衰减（如 ε_t = 1/t），但这需要谨慎设计衰减率。

实操心得：ε-贪心虽然简单，但在很多问题不复杂、臂数不多、且对早期遗憾不太敏感的场景下，它完全够用，且非常稳定。它的最大优势是易于理解和调试。我常把它作为一个基线模型，任何新设计的复杂算法，首先应该能稳定地击败 ε-贪心。

3.2 上置信界算法：乐观面对不确定性

UCB 系列算法提供了一个更优雅的平衡探索与利用的数学框架。其核心思想是“乐观原则”：对于每个臂，我们不仅计算其平均奖励的估计值，还计算一个“置信上界”。这个上界等于估计值加上一个“不确定性奖金”。算法在每一轮选择置信上界最大的臂。

为什么有效？一个臂如果被尝试的次数少，其估计值的不确定性就大，置信区间就宽，对应的“不确定性奖金”就高，其上界就可能被抬高，从而更可能被选中（促进了探索）。随着一个臂被不断尝试，其估计值越来越准，置信区间收窄，奖金降低，其上界逐渐趋近于真实期望值。如果这个臂不是最优的，它的上界最终会低于最优臂的上界，算法就会减少对它的选择。

最经典的是UCB1算法，其选择臂的公式为： A_t = argmax_i [ Q_i + √(2 * ln(t) / N_i) ] 其中，Q_i 是臂 i 的平均奖励估计，t 是总轮数，N_i 是臂 i 被选择的次数。

实现要点：

初始化时，需要确保每个臂至少被选择一次，以避免除零错误并完成初始探索。
公式中的 √(2 * ln(t) / N_i) 项就是不确定性奖金。可以看到，总轮数 t 越大，或该臂被选择的次数 N_i 越小，这个奖金就越大。

class UCB1: def __init__(self, n_arms): self.n_arms = n_arms self.counts = np.zeros(n_arms) self.values = np.zeros(n_arms) self.total_counts = 0 # 总轮数 t def select_arm(self): # 确保每个臂至少被尝试一次 for arm in range(self.n_arms): if self.counts[arm] == 0: return arm # 计算所有臂的UCB值 ucb_values = self.values + np.sqrt(2 * np.log(self.total_counts) / self.counts) return np.argmax(ucb_values) def update(self, chosen_arm, reward): self.total_counts += 1 self.counts[chosen_arm] += 1 n = self.counts[chosen_arm] old_value = self.values[chosen_arm] self.values[chosen_arm] = old_value + (reward - old_value) / n

注意：UCB1 的理论保证很强（对数遗憾界），但它对奖励分布有一个隐含假设：奖励被规范到 [0,1] 区间。如果你的奖励范围是 [a, b]，你需要先将其线性缩放至 [0,1]。此外，UCB1 在初期（每个臂试一次）的探索是强制性的，这可能导致在臂数很多时，初期成本较高。

实操心得：UCB1 及其变种（如 UCB-Tuned, KL-UCB）在实践中通常比固定的 ε-贪心表现更好，尤其是在中期和长期。它的探索是确定性的（基于公式），而非随机的，这使得其行为更可预测，也更容易进行理论分析。在需要向业务方解释算法“为什么选择这个”时，UCB 的“置信上界”概念比“以某个概率随机选”更容易被接受。

3.3 汤普森采样：贝叶斯思想的优雅实践

如果说 UCB 是基于频率学派的“乐观”思想，那么汤普森采样就是贝叶斯学派的“概率匹配”思想。它可能是我在实际生产环境中使用最多、也最推荐的方法，因为它简单、有效，且天然适用于有先验知识的场景。

基本原理：我们为每个臂的奖励分布假设一个先验分布。例如，对于伯努利奖励（点击/不点击），很自然地使用 Beta 分布作为先验。Beta分布有两个参数 α 和 β，可以理解为“成功次数+1”和“失败次数+1”。开始时，我们对所有臂一无所知，可以设置 α=1, β=1（均匀先验）。在每一轮：

对于每个臂 i，从其当前的后验分布（一个 Beta(α_i, β_i) 分布）中随机抽取一个样本 θ_i。
选择样本值 θ_i 最大的那个臂。
观察真实奖励（例如，点击为1，不点击为0）。
更新所选臂的后验分布参数：如果获得奖励1，则 α = α + 1；如果获得奖励0，则 β = β + 1。

为什么有效？一个臂如果被尝试的次数少，其后验分布就较宽（不确定性大）。从这个宽分布中采样，有可能采到一个很高的值，从而使这个臂在当前轮被选中（实现了探索）。随着一个臂被不断尝试，其后验分布越来越集中在真实概率附近。如果它是一个次优臂，从其分布中采到高值的概率会越来越小，它被选中的次数自然就减少了（实现了利用）。这个过程完美地将探索的概率与当前的不确定性绑定在一起。

class ThompsonSamplingBeta: def __init__(self, n_arms): self.n_arms = n_arms # 初始化Beta分布参数，alpha和beta都为1表示均匀先验 self.alphas = np.ones(n_arms) self.betas = np.ones(n_arms) def select_arm(self): # 从每个臂的Beta后验中采样一个值 samples = [np.random.beta(self.alphas[i], self.betas[i]) for i in range(self.n_arms)] return np.argmax(samples) def update(self, chosen_arm, reward): # 更新所选臂的Beta分布参数 if reward == 1: # 假设奖励为二元的（如点击） self.alphas[chosen_arm] += 1 elif reward == 0: # 未点击 self.betas[chosen_arm] += 1 else: # 对于非二元奖励，需要更复杂的更新，或使用其他分布（如高斯-伽马共轭） # 这里简化处理，通常需要将奖励归一化或使用其他模型 pass

注意：上面的实现是针对伯努利奖励的。如果你的奖励是连续的（如购买金额），可能需要使用高斯分布（均值未知，方差已知或未知）及其对应的共轭先验（高斯-伽马分布）。汤普森采样的一个巨大优势是能灵活融入先验知识。例如，如果你根据历史经验知道某个广告位的平均点击率在5%左右，你可以将对应臂的初始参数设为 α=5, β=95（期望为5/(5+95)=0.05），这能显著加速学习过程。

实操心得：汤普森采样在线上 A/B 测试和推荐系统中极其强大。它的代码实现简单，计算效率高（只需采样和比较），而且探索行为非常“聪明”和高效。我遇到过很多次，在相同的模拟环境下，汤普森采样在累积遗憾上的表现优于或至少不逊于精心调参的 UCB 类算法。另一个业务上的优点是，由于它是概率性的，可以很自然地生成每个臂成为最优臂的概率，这个输出对于业务决策者来说非常直观有用。

4. 进阶策略与实战优化技巧

掌握了基础算法后，我们需要面对更复杂的现实。现实世界的数据往往不是静止的，用户偏好会漂移，市场环境会变化。此外，如何评估和选择算法也是一门学问。

4.1 处理非平稳环境：滑动窗口与衰减因子

经典的多臂老虎机算法大多假设环境是平稳的，即每个臂的奖励分布不随时间改变。但这在现实中往往不成立。例如，新闻的热度会衰减，用户的兴趣会转移。这时，我们需要让算法“忘记”过去，更关注近期表现。

有两种主流方法：

滑动窗口：只保留最近 W 轮的数据用于更新每个臂的统计量（如均值、计数）。例如，在 ε-贪心或 UCB 中，我们维护一个长度为 W 的奖励队列。每次更新时，如果队列已满，则剔除最早的数据再加入新数据，然后重新计算均值。这种方法直观，但需要存储 W 条数据，且 W 的选择很关键：太小则噪声大，太大则适应变化慢。
指数衰减：为更早的数据赋予更小的权重。在更新平均奖励估计 Q_i 时，不再使用简单的算术平均，而是使用指数加权移动平均。更新公式变为： Q_i ← (1 - α) * Q_i + α * reward 其中 α 是一个小的学习率（如 0.01 或 0.1）。也可以让 α 依赖于计数，例如 α = 1 / sqrt(N_i)。UCB 算法可以与衰减结合，通过引入一个衰减因子 γ（如 0.99）来降低旧数据的权重：effective_count = γ * old_count + 1。

实战建议：对于变化相对缓慢的环境，指数衰减通常更简单有效，且不需要额外存储空间。你可以通过监控每个臂的估计值 Q_i 的波动情况，或者在线计算算法的瞬时遗憾，来定性判断环境是否平稳，以及衰减因子是否合适。

4.2 上下文老虎机实战：以线性为例

当我们可以获得上下文信息 x_t 时，问题就变成了学习一个从上下文到臂的映射函数。线性上下文老虎机假设每个臂 a 的期望奖励是上下文 x_t 的线性函数，即 E[r_t | a, x_t] = x_t^T θ_a，其中 θ_a 是待学习的臂特定参数向量。

LinUCB是一个著名的算法。它为每个臂 a 维护一个参数估计 θ_a，以及一个矩阵 A_a（设计矩阵的累积）和向量 b_a（奖励向量的累积）。在每一轮，给定上下文 x_t，它计算每个臂的预测值及其置信区间宽度： score_a = x_t^T θ_a + α * √(x_t^T A_a^{-1} x_t) 其中 α 是一个控制探索程度的超参数。算法选择 score 最高的臂。收到奖励 r_t 后，更新该臂的 A_a 和 b_a，并重新计算 θ_a = A_a^{-1} b_a。

实现关键点：

需要处理矩阵求逆（A_a^{-1}）。为了提高数值稳定性和效率，通常使用岭回归（在 A_a 上加一个正则化项 λI）并采用增量更新（如 Sherman-Morrison 公式）来避免每次重新求逆。
特征工程至关重要。上下文 x_t 的质量直接决定模型的上限。
超参数 α 和 λ 需要通过交叉验证或在线调参来确定。

# LinUCB 简化版核心思路伪代码 class LinUCB: def __init__(self, n_arms, dim, alpha): self.n_arms = n_arms self.dim = dim # 上下文特征维度 self.alpha = alpha self.A = [np.eye(dim) for _ in range(n_arms)] # 每个臂的A矩阵 self.b = [np.zeros(dim) for _ in range(n_arms)] # 每个臂的b向量 self.theta = [np.zeros(dim) for _ in range(n_arms)] # 每个臂的参数 def select_arm(self, context): scores = [] for a in range(self.n_arms): # 计算预测值 pred = np.dot(self.theta[a], context) # 计算置信区间宽度 inv_A = np.linalg.inv(self.A[a]) width = self.alpha * np.sqrt(np.dot(context.T, np.dot(inv_A, context))) scores.append(pred + width) return np.argmax(scores) def update(self, chosen_arm, context, reward): a = chosen_arm # 更新A和b self.A[a] += np.outer(context, context) self.b[a] += reward * context # 重新计算theta self.theta[a] = np.linalg.solve(self.A[a], self.b[a])

注意：对于海量臂或超高维特征场景，为每个臂维护一个独立模型可能不现实。此时可以考虑使用神经网络来参数化策略，这就是深度强化学习中的策略梯度方法或深度贝叶斯 Bandits 的范畴了，复杂度会大大增加。

4.3 算法评估与选择：模拟与离线评估指南

在将任何一个老虎机算法部署到线上之前，必须进行严格的评估。评估主要分两类：模拟评估和离线评估。

模拟评估：这是最直接的方法。你需要构建一个模拟环境，其中每个臂的真实奖励分布是已知的（例如，预设好每个广告的真实点击率）。然后运行你的算法很多次（例如10000次独立模拟），计算其平均累积遗憾曲线，并与理论最优（一直选真实最好的臂）或其他基准算法（如 ε-贪心、UCB）进行比较。

优点：可控，可以快速迭代算法和参数。
缺点：模拟环境永远无法完全复现真实的复杂性。模拟中奖励分布的假设（如伯努利、高斯）可能与现实不符。

离线评估：这是更严谨的方法，尤其适用于已有历史日志数据的情况。历史日志中记录了在每一轮，当时系统所选的臂（旧策略）和获得的奖励。我们想评估一个新策略（新算法）如果运行在历史上，会表现得怎么样。由于我们无法让时光倒流，所以需要使用反事实评估技术，如逆概率加权。

核心思想：给历史数据中的每条记录（上下文，被选臂，奖励）赋予一个权重，权重等于新策略选择该臂的概率除以旧策略选择该臂的概率（即重要性采样比率）。然后，用加权后的奖励来估计新策略的期望奖励。
关键挑战：如果旧策略很少选择某个臂，而新策略经常选择它，那么权重会非常大，导致估计的方差极高，甚至不可用。这要求旧策略的探索不能太弱（需要有足够多样的数据），也催生了如双稳健估计等更高级的评估方法。

我的经验：在项目初期，先用模拟环境快速验证算法逻辑和参数敏感性。然后，尽可能收集一个探索充分的旧策略日志（例如，一个 ε=0.3 的随机策略运行一段时间产生的日志），用于离线评估。只有离线评估指标（如估计的累积奖励）显著且稳定地优于旧策略，才考虑进行小流量的线上A/B测试。线上测试是最终的试金石，但成本也最高。

5. 避坑指南与常见问题排查

在实际应用中，我踩过不少坑，也见过很多同事掉进同样的陷阱。这里总结几个最常见的问题和解决方案。

5.1 冷启动问题：如何给新臂一个机会？

当系统引入一个全新的臂（例如，一篇新文章，一个新广告创意）时，它没有任何历史数据。大多数算法（如UCB初始计数为0，汤普森采样先验很宽）本身具备探索新臂的能力，但这可能不够快，尤其是在臂数很多的情况下。

解决方案：

强制初始探索：在算法层面，可以修改select_arm函数，让任何计数为0（或低于阈值）的臂拥有最高的优先级。例如，在UCB中，我们已经在代码里实现了“每个臂至少试一次”的逻辑。你可以将这个“至少一次”扩展为“至少N次”，以收集更稳健的初始估计。
注入先验知识：对于汤普森采样，这是最自然的方式。如果你对新臂的质量有一个合理的猜测（比如，新广告的平均点击率可能与同类广告的历史平均水平相近），你可以通过设置一个信息性较强的先验分布（如 Beta(α, β)，其中 α/(α+β) 等于你的先验猜测）来加速学习。这相当于给算法一个“起点”。
业务层面隔离：在线上系统中，可以为新内容设立一个“新手池”，用小部分流量（例如5%）专门进行随机或均匀探索，快速积累初始数据。待数据达到一定量后，再将其放入主流量池与其他臂公平竞争。

5.2 奖励信号设计与缩放

算法的表现极度依赖于奖励的设计。奖励必须是可获取的、与业务目标对齐的、并且数值范围合理的。

常见错误：将“曝光”作为奖励。曝光本身不是目标，用户后续的点击、转化、停留时长才是。奖励应该直接反映你最终想优化的业务指标。
复合奖励：有时单一信号不够。例如，在电商推荐中，你既关心点击率，也关心购买金额。一个常见做法是设计一个加权综合奖励：reward = w1 * click + w2 * purchase_value。权重的设定需要业务方共同讨论，以反映不同目标的相对重要性。
奖励缩放：许多算法（如UCB1）假设奖励在[0,1]区间。如果你的原始奖励是[0, 100]的购买金额，直接使用会导致探索项（置信区间宽度）相对奖励值显得微不足道，算法几乎退化为纯贪心。务必进行缩放。一种稳健的方法是使用自适应缩放：维护一个观察到的奖励最小值和最大值，动态地将奖励归一化到[0,1]。或者，使用对缩放不那么敏感的算法变种，如基于梯度的算法。

5.3 超参数调优：没有银弹

ε（对于ε-贪心）、α（对于UCB或LinUCB）、先验参数（对于汤普森采样）都是超参数。没有一组参数能通吃所有问题。

调优流程建议：

模拟基准测试：在构造的模拟环境（最好能反映真实数据的一些特性，如奖励分布的大致范围、臂数）中，对超参数进行网格搜索或随机搜索，观察不同参数下累积遗憾曲线的变化。目标是找到遗憾增长最慢、最终累积遗憾最低的参数区域。
离线验证：将上一步选出的几个候选参数，在历史日志数据上用离线评估方法进行验证。选择离线评估指标最好的参数。
线上小流量验证：最终，在线上分配一小部分流量（如1%），进行A/B测试，直接对比不同参数组（或不同算法）在核心业务指标上的表现。这是最可靠的依据。

重要提示：警惕过拟合。在模拟或离线评估中表现最好的参数，可能在线上因为环境差异而失效。因此，线上小流量测试是不可或缺的最后一步。另外，可以考虑使用能自动适应环境的参数调整方法，如将ε或α设置为随时间衰减的调度器。

5.4 方差与收敛速度问题

在臂的真实期望奖励非常接近的情况下，算法可能需要很长时间才能以高置信度区分出最优臂。这会导致累积遗憾在初期下降很慢。

排查与缓解：

检查奖励方差：如果奖励本身的噪声（方差）很大，信号就会被淹没，学习速度必然慢。检查每个臂奖励的样本方差。如果方差过大，考虑是否可以对奖励进行变换（如取对数）或使用更鲁棒的估计量（如中位数而非均值，但这会改变问题定义）。
增加探索强度：在初期适当增加探索（提高ε，或增大UCB中的α系数），以更快地缩小置信区间。但要注意权衡，过度的探索会增加短期遗憾。
使用更高效的算法：一些算法在均值相近的场景下理论上更优。例如，KL-UCB算法使用奖励分布之间的KL散度来构造置信区间，对于伯努利奖励，它在均值接近时比UCB1有更好的理论界限。可以尝试切换算法进行对比。

多臂老虎机是一个将理论之美与实践智慧紧密结合的领域。从理解探索与利用的根本矛盾开始，到熟练运用ε-贪心、UCB、汤普森采样等经典算法，再到能处理上下文、非平稳性等复杂情况，并能在实际系统中进行正确的评估和调优，每一步都需要动手实践和深入思考。我最深的体会是，永远不要迷信某个“最优”算法，最关键的是深入理解你的业务数据、清晰定义你的目标，然后选择或调整最适合这个场景的模型。很多时候，一个简单但贴合业务的汤普森采样，其效果远胜于一个复杂但假设不成立的深度模型。先从模拟实验开始，积累直觉，再谨慎地推向线上，让数据驱动你的决策迭代，这才是应用多臂老虎机思想解决实际问题的正确路径。

查看全文

http://www.jsqmd.com/news/940252/