当前位置：首页 > news >正文

受果蝇大脑启发的持续学习：协同主动遗忘与多学习者架构

news 2026/5/9 13:11:08

1. 项目概述与核心挑战

持续学习，有时也被称为终身学习，是机器学习领域一个长期存在且极具吸引力的目标。它希望模型能够像人类或动物一样，在一个动态变化的环境中，持续不断地学习一系列新任务，同时不会灾难性地遗忘之前学到的旧知识。想象一下，你教会了一个智能体识别猫和狗，然后又教它识别汽车和飞机。一个理想的持续学习模型应该在学会识别汽车飞机后，依然能准确地认出猫狗。然而，现实中的神经网络模型在面对这种连续的非平稳数据流时，往往会表现出“灾难性遗忘”——学习新任务的过程会严重覆盖或破坏对旧任务的记忆。

这个问题的核心，就是经典的“稳定性-可塑性困境”。稳定性指的是模型保留旧知识的能力，而可塑性指的是模型学习新知识的能力。过于强调稳定性（例如，严格限制网络参数更新），模型会变得僵化，难以学会新任务；而过于强调可塑性（例如，像训练单个任务一样自由更新参数），旧知识就会被迅速冲刷掉。如何在两者之间找到一个精妙的平衡点，是持续学习研究的圣杯。

传统的工程思路，如弹性权重固化（EWC）、记忆感知突触（MAS）等正则化方法，主要侧重于“保护”重要的旧连接，通过惩罚对重要参数的改变来维持稳定性。这就像给旧知识上了一把锁。但神经科学告诉我们，生物大脑的处理方式可能更加主动和精妙。果蝇的蘑菇体（Mushroom Body，特别是其γ区，即γMB系统）就是一个绝佳的研究范例。这个系统不仅会巩固重要记忆，还会通过多巴胺能神经元等机制主动遗忘一些不那么重要或干扰性的信息，并且其内部由多个平行区室（γ1-γ5）组成，这些区室可以动态协调，处理不同类型或阶段的记忆。

受此启发，我们的工作不再仅仅被动地“防御”遗忘，而是尝试将主动遗忘作为一个可调控的计算元件引入持续学习框架。同时，我们借鉴γMB的多区室结构，构建了一个多学习者架构，让多个并行的“小专家”协同工作。我们将这个受神经科学启发的计算模型称为“协同主动遗忘与多学习者架构”，并在多个标准测试中验证了其有效性。简单来说，我们不只是给旧知识上锁，还学会了有选择地“清理内存”，并且组建了一个“专家委员会”来共同决策，从而更优雅地解决了稳定性与可塑性的矛盾。

2. 核心思路拆解：从果蝇大脑到算法框架

2.1 神经科学基石：果蝇蘑菇体（γMB）的启示

要理解我们的模型，首先需要看看它的生物学灵感来源。果蝇的蘑菇体是其学习和记忆的中心。γMB系统尤其有趣，它包含多个平行的区室（γ1到γ5），每个区室都可能编码不同方面或不同时间的记忆痕迹。

主动遗忘的调节：在果蝇中，遗忘并非一个被动的衰减过程，而是由特定神经通路（如涉及Rac1蛋白）主动调控的。多巴胺能神经元（DANs）可以触发主动遗忘，而蘑菇体输出神经元（MBONs）的活动则与记忆的稳定性相关。这种“推拉式”的调节机制，使得大脑可以根据环境需求（如奖励或惩罚）动态调整记忆的留存与清除。
多区室并行与协调：不同的γ区室可能对不同的嗅觉刺激或学习任务有特异性的响应。这种并行的结构允许系统同时处理多种信息流，并通过区室间的协调来优化整体行为输出。这暗示了，在人工系统中，使用多个具有差异化的子网络（学习者）可能比单个大网络更具优势。

对我们的计算模型而言，这两点直接转化为了两个核心设计原则：第一，我们需要一个机制来模拟“主动遗忘”，以可控的方式释放网络容量，促进新知识的学习；第二，我们需要一个多专家系统，通过多样性来覆盖更广的任务空间，并通过协同来做出稳健的决策。

2.2 算法框架总览：协同主动遗忘（CAF）与多学习者架构

我们的模型主要由两大支柱构成：协同主动遗忘（CAF）机制和类γMB的多学习者架构（MCL）。它们分别对应了上述两个生物学原理。

支柱一：协同主动遗忘（CAF）CAF的核心思想是在贝叶斯学习框架下，将主动遗忘形式化。传统持续学习的目标是最大化给定所有已见数据后参数的后验概率：P(θ|D_old, D_new)。这通常通过正则化（如EWC）来近似，强调稳定性。我们引入一个“遗忘率”β，将目标重新表述为：P(θ|D_old, D_new, β) ∝ P(D_new|θ) * [P(θ|D_old)]^(1-β) * [P(θ)]^β其中，P(θ)是先验分布（通常设为简单的高斯分布）。当β=0时，退化为标准的稳定性保护；当β>0时，P(θ)的引入起到了“主动遗忘”的作用——它将参数向先验分布拉回，相当于有选择地削弱旧任务特有的参数配置，为新任务的学习腾出空间。

在实际实现中，我们推导出两种等价的优化形式（AF-1和AF-2），它们都可以整合到现有的正则化方法（如EWC、MAS）的损失函数中。以AF-1为例，最终的损失函数变为：L_total = L_new + λ_SP * Ω(θ, θ_old*) + λ_AF * ||θ||^2这里，L_new是新任务的损失，Ω是保护旧任务的正则项（如EWC中的Fisher信息矩阵加权L2惩罚），而新增的λ_AF * ||θ||^2项就是实现主动遗忘的L2权重衰减项。关键在于，λ_SP和λ_AF并非独立，它们通过遗忘率β联系在一起（λ_SP ∝ (1-β),λ_AF ∝ β），形成了一个此消彼长的权衡关系。

注意：这里的主动遗忘与普通的L2权重衰减有本质区别。普通权重衰减是为了防止过拟合，其强度是固定的。而我们的CAF中，λ_AF是与稳定性保护项λ_SP协同优化的，其大小直接体现了在新旧任务间进行“记忆管理”的主动策略。β成为一个可调的超参数，控制着遗忘的强度。

支柱二：类γMB的多学习者架构（MCL）单个学习者（SCL）的能力是有限的。我们构建了K个并行的持续学习者（L1到Lk），每个学习者都有自己的参数集，并独立地进行持续学习（都应用CAF机制）。这模仿了γMB的多个平行区室。

多样性来源：这些学习者之间的差异（专业多样性）至关重要。差异主要来自两个方面：一是随机初始化不同；二是在训练过程中使用Dropout等随机性操作。这种内在的多样性使得不同学习者可能对不同的任务序列或数据分布产生不同的“偏好”或“专长”。
协同输出：所有学习者的输出通过一个共享的输出头进行加权整合，产生最终的预测。这个输出头是可学习的，它能够动态地调整对不同学习者的依赖程度，类似于γMB系统中不同区室对最终行为输出的贡献权重可以被调节。
适应性调制：这是架构的“智能”所在。我们引入了两种调制机制：
- AF-1调制：每个学习者可以有不同的遗忘率β_i。对于即将到来的新任务，如果某个学习者对其“更擅长”（表现为在新任务数据上的损失更低），则可以赋予其更小的β_i（即更少遗忘，更多保护），反之则赋予更大的β_i（更多遗忘，鼓励适应）。这实现了资源根据任务需求进行动态分配。
- AF-S调制：除了遗忘率，我们还可以调制每个学习者的学习规则本身（即损失函数中各项的权重），进一步精细化协调。

通过这种架构，模型不再寻求一个“全能”的单一解，而是维护一组具有多样性的解决方案。当新任务到来时，总有一些学习者能更好地适应，而整个系统通过输出头的整合，保持了强大的整体性能。

3. 实现细节与实操要点

3.1 主动遗忘（CAF）的具体实现与调参

理论很优美，但落地到代码和实验中有许多细节需要把握。我们以在PyTorch中实现CAF-EWC为例，拆解关键步骤。

步骤1：计算稳定性保护项首先，你需要实现基础的正则化方法，例如EWC。在学完任务A后，需要计算其参数的重要性（Fisher信息矩阵对角线或参数变化敏感度），并保存关键参数θ_A*和重要性矩阵F_A。

# 伪代码示例：学完任务A后，计算并存储EWC所需信息 def compute_fisher(model, dataset_a): fisher = {} for name, param in model.named_parameters(): fisher[name] = torch.zeros_like(param.data) # ... 使用数据集dataset_a计算Fisher信息矩阵（对角近似）... return fisher theta_old = {n: p.data.clone() for n, p in model.named_parameters()} fisher_old = compute_fisher(model, dataset_a)

步骤2：在后续任务中整合CAF损失当学习新任务B时，总损失函数如下：

def caf_ewc_loss(current_loss, model, theta_old, fisher_old, lambda_sp, lambda_af): ewc_loss = 0 for name, param in model.named_parameters(): # 稳定性保护项：EWC ewc_loss += (fisher_old[name] * (param - theta_old[name])**2).sum() # 主动遗忘项：L2权重衰减 (注意：这里是对所有参数，而不仅仅是重要参数) # 在实际中，我们通常只对权重参数施加L2，不对偏置项。 total_loss = current_loss + lambda_sp * ewc_loss + lambda_af * model.l2_loss() return total_loss

关键调参经验：

lambda_sp和lambda_af的搜索：论文中采用了网格搜索。我们的经验是，lambda_sp通常沿用基础方法（如EWC）的最优范围，而lambda_af的值通常非常小（例如1e-8到1e-6量级）。一个实用的策略是先固定lambda_sp为之前调好的值，然后在[1e-9, 1e-8, 1e-7, 1e-6, 1e-5]范围内搜索lambda_af。
β的作用：在代码中，我们并不直接设置β，而是通过联合优化lambda_sp和lambda_af间接实现了β所代表的权衡。lambda_af / (lambda_sp + lambda_af)的比例大致反映了“遗忘”的相对强度。
与普通L2衰减的区分：务必在优化器之外单独添加这个lambda_af * model.l2_loss()项。不要使用优化器自带的weight_decay参数，因为那样会作用于所有任务，而我们的CAF损失是特定于持续学习阶段的。

3.2 多学习者架构（MCL）的构建与训练

构建MCL架构比实现CAF要复杂一些，因为它涉及管理多个子网络。

网络结构设计：

共享特征提取器 vs. 独立学习者：为了控制参数量并提高效率，我们的多个学习者共享低层的特征提取层（如前几层卷积）。每个学习者实际上是共享主干网络之上的一个独立分支（例如，一组独立的全连接层）。这模拟了γMB区室接收相同的输入（嗅觉信息），但进行不同的处理。
宽度与数量的权衡：在总参数量大致固定的前提下，是使用更少但更宽的学习者，还是更多但更窄的学习者？论文中的实验表明（见Supplementary Table 5），存在一个最优区间。对于CIFAR-100这类任务，5个学习者通常是一个很好的起点。每个学习者的宽度（通道数）需要相应缩减，以保持总参数量与单学习者模型（SCL）可比。
输出头整合：每个学习者输出一个logits向量。我们引入一个可学习的权重向量g = [g1, g2, ..., gk]（通过softmax归一化），最终的预测是各学习者logits的加权平均：final_logits = sum(g_i * logits_i)。这个权重在训练所有任务的过程中持续更新。

训练流程：

初始化：K个学习者分支进行不同的随机初始化。共享特征提取器正常初始化。
前向传播：输入数据通过共享特征提取器，然后并行通过K个学习者分支，得到K组logits。
损失计算：对每个学习者，计算其在新任务数据上的损失（如交叉熵），并分别加上其自身的CAF正则化项（基于该学习者自身存储的旧任务重要参数）。这意味着每个学习者都有自己独立的“记忆”和“遗忘”过程。
反向传播与更新：计算每个学习者的总损失，进行反向传播。关键点：共享特征提取器的梯度是来自所有K个学习者的梯度之和。这迫使共享层学习对多个学习者都有用的通用特征。
输出头权重更新：同时，根据最终加权平均后的logits与真实标签计算的总损失，来更新可学习的整合权重g。

实操心得：管理多个学习者的参数和旧任务信息（theta_old,fisher_old）是编码中最容易出错的部分。建议为每个学习者创建一个独立的数据结构（如字典列表）来存储其任务历史信息。在训练新任务时，务必确保每个学习者只访问自己的历史信息，避免交叉污染。

3.3 适应性调制的实现

AF-1和AF-S调制是MCL性能提升的关键。

AF-1调制（遗忘率调制）：在训练新任务前，用一个小的验证集（或直接使用训练集的前几批数据）快速评估每个学习者在新任务上的初始性能（损失）。根据损失排序，为性能较好的学习者分配较小的lambda_af（即更少遗忘），为性能较差的学习者分配较大的lambda_af。这可以通过一个预定义的映射函数实现，例如lambda_af_i = base_lambda_af * (rank_i / K)。
AF-S调制（学习规则调制）：这是一个更精细的控制。除了调制遗忘率，还可以调制每个学习者的稳定性保护强度lambda_sp_i，甚至调制基础学习率。这相当于为每个学习者定制了学习策略。实现上，只需在计算每个学习者的损失时，使用其独有的lambda_sp_i和lambda_af_i即可。

注意事项：调制机制引入了额外的超参数（如映射函数的形式）。在初步实验中，简单的线性或分段线性映射通常就能带来显著提升。切忌过度设计复杂的调制策略，以免引入难以调优的超参数。

4. 实验配置与核心结果分析

4.1 基准数据集与任务划分

为了全面评估模型，我们选用了多个主流的持续学习基准数据集，并按照不同原则进行任务划分，以检验模型在不同迁移特性下的表现：

CIFAR-100：我们构建了两种20任务的划分。
- R-CIFAR-100：随机划分100个类到20个任务，每个任务5个类。任务间知识迁移可能为正也可能为负。
- S-CIFAR-100：根据语义超类（如“水生哺乳动物”、“花卉”等）划分，同一超类的子类出现在同一任务。任务间有较强的正迁移。
R-CIFAR-10/100：先学习2个来自CIFAR-10的任务，再学习20个来自CIFAR-100的任务，测试模型处理不同数据集序列的能力。
Omniglot, CUB-200-2011, Tiny-ImageNet, CORe50：这些数据集分别用于测试模型在处理大量字符类、细粒度鸟类分类、自然图像分类以及连续变化观察值场景下的能力。
Atari 游戏序列：构建了8个Atari游戏的序列（如DemonAttack, Robotank等），使用PPO算法进行持续强化学习测试，评估在决策任务上的表现。

评估指标：我们采用持续学习领域公认的三个核心指标：

平均准确率（AAC）：学完所有任务后，在所有已见任务上测试的平均准确率。衡量整体性能。
前向迁移（FWT）：学习新任务时，对旧任务知识的利用对新任务学习的帮助程度（可为正或负）。
后向迁移（BWT）：学习新任务时，对已学旧任务性能的影响（通常为负，衡量遗忘程度）。

4.2 对比方法与消融实验

我们与多种代表性基线方法进行了比较：

正则化方法：EWC, MAS, SI。它们通过惩罚重要参数的变化来保护旧知识。
混合方法：AGS-CL（结合参数隔离与正则化），P&C（在EWC基础上增加主动列）。
平坦化方法：CPR（鼓励收敛到平坦的损失盆地），该方法可与我们的CAF结合。

核心结果展示（以CIFAR-100系列为例）：我们的方法（CAF-EWC, CAF-MAS）在几乎所有数据集和指标上均显著优于基线。例如，在R-CIFAR-100上，CAF-EWC将平均准确率从基准EWC的69.03%提升到了76.23%，同时前向迁移（FWT）从-4.16%改善到-1.08%，后向迁移（BWT）从-4.45%改善到-0.39%。这清晰地表明，CAF不仅提升了整体性能，还显著改善了稳定性与可塑性的平衡——在学习新任务时（FWT改善），对旧任务的伤害更小（BWT改善）。

消融实验揭示了什么？

CAF的有效性：单独在单学习者（SCL）上应用AF-1或AF-2，都能带来一致的性能提升（图2c）。这证明了主动遗忘机制本身的价值。
MCL架构的有效性：即使不使用CAF，仅仅使用多学习者架构（MCL）并简单平均其输出，也能超越单学习者（SCL）。这证明了多样性本身的力量。
协同的威力：CAF与MCL结合（即完整的我们的模型）产生了“1+1>2”的效果。性能提升远超单独使用CAF或MCL。这表明适应性调制（AF-1/AF-S）成功地将多学习者的多样性导向了更有益的方向。
多样性是关键：我们比较了不同初始化（高/中/低多样性）的MCL。结果表明，高多样性背景（不同初始化+Dropout）的MCL性能最好。而我们的CAF调制能够进一步放大这种多样性带来的好处（图3e,f，预测的余弦/欧氏距离增大）。

4.3 深入机制探索

为了理解模型为何有效，我们进行了深入的机理分析：

任务分布差异（H-散度）：我们训练了一个简单的判别器，试图从特征空间中区分数据来自哪个任务。判别误差越大，说明任务分布在特征空间中越难以区分，即模型学习到的特征更具任务不变性。实验表明，CAF和MCL都能增大判别误差，而两者结合时效果最显著（图4a-c）。这意味着我们的方法促使模型学习到了更通用、更鲁棒的特征表示。
损失景观的平坦性：在学完所有任务后，我们在参数解周围施加随机扰动，并观察训练误差的变化。一个平坦的损失盆地（即扰动后误差上升缓慢）通常意味着更好的泛化能力和对遗忘的鲁棒性。图4d-f显示，我们的方法（CAF）找到了比SCL和MCL更平坦的极小点。
参数变化总量与性能的关系：我们绘制了总参数变化量与平均准确率的关系图（图4g-i）。有趣的是，CAF在达到更高性能的同时，其参数总变化量往往介于SCL（变化小，但性能低）和MCL（变化大，性能较高）之间。这表明CAF找到了一种更高效的参数更新路径，用更“经济”的改动获得了更好的性能。

5. 常见问题、调参陷阱与实战建议

在实际复现和应用CAF模型时，你可能会遇到以下问题：

Q1：CAF中的lambda_af应该设多大？和普通权重衰减有什么区别？A1：lambda_af的值通常非常小，在1e-9到1e-6之间，具体取决于数据集和基础正则化方法（EWC或MAS）的强度。它与普通权重衰减的关键区别在于其角色是动态权衡的一部分。普通权重衰减是固定值，用于控制模型复杂度。而lambda_af是与lambda_sp协同工作的，其相对大小决定了“遗忘”与“记忆”的平衡。建议的调参流程是：首先在不加CAF的情况下，为基线方法（如EWC）找到最优的lambda_sp。然后固定此lambda_sp，在[1e-9, 1e-8, 1e-7, 1e-6, 1e-5]范围内搜索lambda_af。如果资源允许，最好对(lambda_sp, lambda_af)进行联合网格搜索。

Q2：多学习者架构（MCL）的参数量爆炸怎么办？A2：这是MCL面临的主要实际问题。我们的策略是共享底层特征提取器。只有顶部的“专家头”（通常是最后1-2个全连接层）是独立的。这样，增加学习者数量K带来的参数量增长是线性的，且只发生在网络高层，远低于复制整个网络。在论文中，我们通过调整每个学习者的宽度（通道数），确保5学习者MCL的总参数量与单学习者SCL大致相当。这是公平比较的前提。

Q3：如何为每个学习者设置不同的遗忘率β_i（AF-1调制）？A3：一个简单有效的启发式方法是基于“学习速度”。在新任务训练初期（例如第一个epoch结束后），计算每个学习者在该任务上的损失。对损失进行排序，损失越低的学习者，认为其先验知识对新任务更有利，应给予更小的β_i（更少遗忘）。可以设定β_i = base_β * (r_i / K)，其中r_i是学习者的损失排名（从1到K），base_β是一个基础遗忘率超参数。更复杂的策略可以引入验证集，但初期用训练损失排序足以带来提升。

Q4：输出头的整合权重g应该如何初始化？A4：建议初始化为均匀权重，即g_i = 1/K。在训练过程中，它通过梯度下降自动学习。需要注意的是，g的优化应使用一个较小的学习率，因为它需要适应整个任务序列的长期变化，波动不宜过大。

Q5：在强化学习（RL）任务中，CAF和MCL如何应用？A5：原理是相同的。对于CAF，在PPO等RL算法的策略损失和值函数损失基础上，增加对旧任务重要参数的EWC/MAS正则化项以及主动遗忘的L2项。对于MCL，可以维护多个策略网络（共享特征编码器），每个策略网络有自己的价值函数头。动作选择基于各策略网络输出动作概率的加权平均（权重g可学习）。在Atari实验中的成功证明了该框架的通用性。

调参陷阱提醒：

lambda_af过大：会导致过度遗忘，模型表现会迅速退化到接近从头开始训练新任务，旧任务性能崩溃。
lambda_af过小：则退化为基线正则化方法，无法发挥主动遗忘的优势。
学习者数量K过多：在固定总参数量下，每个学习者会变得过于“瘦弱”，容量不足，导致所有学习者性能都差，整合也无济于事。通常3-8个学习者是一个合理的探索范围。
学习者多样性不足：如果所有学习者初始化相同且不使用Dropout，MCL就退化成了单纯的模型集成，无法形成差异化的专业知识，性能提升有限。确保随机初始化和使用Dropout是激发多样性的关键。

最后，从工程实践角度看，受神经科学启发的思路为持续学习提供了崭新的工具。主动遗忘不是敌人，而是管理有限记忆资源的盟友；多个专家协同，比一个全能专家更具鲁棒性。这套CAF框架像是一个“记忆管理器”加上一个“专家委员会”，它可能不是最终答案，但无疑为我们构建更稳健、更适应性的持续学习系统，推开了一扇充满希望的新窗。

查看全文

http://www.jsqmd.com/news/783077/