当前位置：首页 > news >正文

VLA模型微调防遗忘：AEGIS正交梯度投影技术详解与实战

news 2026/6/22 17:33:06

1. 项目概述：当VLA模型学会新技能时，它还记得怎么“看”吗？

最近在折腾多模态大模型（VLA）的微调时，我遇到了一个相当典型却又棘手的问题：模型“偏科”了。具体来说，我手头有一个在图文理解、视觉问答（VQA）上表现不错的VLA模型，现在想通过微调，让它精通某个垂直领域的任务，比如医疗影像报告生成或者工业质检中的缺陷描述。一通标准的全参数微调（Full Fine-Tuning）或者LoRA微调下来，新任务上的指标确实上去了，但回头一测，模型原本强大的通用视觉理解能力，比如看图描述、物体识别，却出现了肉眼可见的衰退。这就好比让一个精通多国语言的翻译去专攻医学文献翻译，一段时间后，他医学词汇是厉害了，但日常对话反而磕巴了——这就是所谓的“跨模态知识遗忘”。

这个问题在社区里讨论热度不低，从“vla模型有哪些”到“大模型微调实战”、“多模态微调实战”，大家都在寻找既能让模型学好新本领，又不丢旧功夫的方法。传统的微调方法，无论是全参数微调还是参数高效的微调（PEFT）如LoRA、QLoRA，其优化目标通常是单一任务的损失函数最小化。在反向传播更新参数时，梯度方向会“一股脑”地指向最能改善新任务性能的区域，而这个区域很可能与维持原有多模态对齐和视觉语义理解能力的参数空间是冲突的。简单说，模型参数被“推”向了新任务的最优点，却不幸从旧任务的高性能区域“滑落”了下来。

我最近深入实践并验证了一个名为AEGIS的方法，它的核心思想非常巧妙：正交梯度投影。这名字听起来有点唬人，但原理其实很直观。它的目标不是阻止模型学习新知识，而是引导它以一种“聪明”的方式去学——在更新参数时，确保用于学习新任务的梯度分量，与那些对维持原有视觉-语言对齐能力至关重要的梯度方向是“正交”（即垂直、不干扰）的。这样，模型就能在新任务的学习轨道上狂奔的同时，不会偏离维持旧能力的基准平面。

这个方法不是空想，它直指当前VLA应用中的痛点。无论是想用llama-factory微调Qwen3.5-VL，还是尝试unsloth加速微调流程，抑或是研究(IA)^3等更高效的微调技术，知识遗忘都是横在面前的坎。AEGIS提供了一种在优化过程中进行动态约束的思路，让我们有可能实现“鱼与熊掌兼得”。接下来，我就结合自己的实操，拆解AEGIS是如何工作的，并分享在真实场景中部署时需要注意的那些“坑”。

2. AEGIS的核心机制：正交梯度投影如何“隔离”知识

要理解AEGIS，我们得先回到微调的本质：梯度下降。当我们用一批新数据（比如医疗图像和对应报告）对预训练的VLA模型进行微调时，我们会计算损失函数（如生成报告的文本负对数似然），然后得到损失相对于模型所有可训练参数的梯度。这个梯度向量指明了参数空间里“哪个方向走”能最快降低当前任务的损失。问题在于，这个方向可能对模型已有的、在其他任务上表现良好的能力有害。

AEGIS的解决方案是引入一个“保护机制”。它并不直接修改损失函数，而是在梯度更新这一步进行干预。其核心操作可以分为三步：

第一步：识别需要保护的“旧知识”梯度方向。这是关键前提。我们需要定义什么是需要保留的“跨模态知识”。通常，这指的是模型在预训练阶段或通过早期通用任务学习到的、稳健的视觉特征提取和视觉-语言对齐能力。在实践中，一个可操作的方法是准备一个小的、具有代表性的“保留数据集”。这个数据集不需要大，但应涵盖我们希望模型不忘掉的通用能力，例如一个包含多样场景的图文对数据集（如从COCO或Visual Genome中采样）。在每次微调迭代（或每N次迭代）中，除了计算新任务数据的梯度，我们也会在这个保留数据集上做一次前向传播，计算一个“保留损失”（例如，图文匹配损失或掩码语言建模损失），并得到对应的梯度向量，记为G_retain。这个G_retain就被视为需要保护的、代表旧知识的方向。

第二步：将新任务梯度投影到与旧知识梯度正交的子空间。拿到新任务数据的梯度G_new后，AEGIS并不直接使用它。它计算G_new在G_retain方向上的投影分量，然后将这个分量从G_new中减去。数学上，这被称为向量的正交投影。公式如下：

G_projected = G_new - ( (G_new · G_retain) / (||G_retain||^2) ) * G_retain

其中，“·”表示点积，“|| ||”表示向量的L2范数。这个操作的结果G_projected是一个新的梯度向量，它确保在G_retain这个方向上没有分量。也就是说，沿着 G_projected 方向更新参数，不会改变模型在保留数据集上的损失（一阶近似下）。这就像是你想往东走（学新任务），但正东方向有个水坑（会损害旧能力），AEGIS帮你把路线调整到东北方向，避开那个水坑，同时依然能向东边前进。

第三步：使用投影后的梯度进行参数更新。最后，我们使用G_projected替代原始的G_new，结合优化器（如AdamW）来更新模型参数。公式依然是：θ = θ - η * G_projected，其中η是学习率。

这个过程在每次参数更新时动态进行。它的美妙之处在于：

动态适应性：需要保护的梯度方向G_retain是随着模型参数变化而变化的，因此这种保护是自适应的，而非固定不变。
计算开销可控：相比起一些需要维护多个模型或大量历史数据的方法，AEGIS主要增加了一次在小型保留数据集上的前向和梯度计算。在微调本身计算量就很大的背景下，这个额外开销是相对可接受的，尤其当保留数据集很小时。
与现有微调方法兼容：AEGIS作用于梯度，因此它可以与全参数微调、LoRA、QLoRA、甚至(IA)^3等PEFT方法无缝结合。你可以在使用Llama-Factory或unsloth进行微调时，将AEGIS作为一个梯度修改层插入训练循环。

注意：这里存在一个重要的实操细节。G_retain的计算应该使用当前模型参数下的梯度，并且通常我们只计算一次（或低频更新），然后在一个小批量（mini-batch）的更新中复用。频繁重新计算G_retain会显著增加计算成本。一种平衡的做法是，每训练100-200个step，用保留数据集重新计算一次G_retain。

3. 从理论到实践：搭建AEGIS微调管线的关键步骤

理解了原理，我们来看如何把它落地。我将以使用Hugging Face Transformers库和PyTorch，对一个类似Qwen2-VL这样的开源VLA模型进行领域适配微调为例，阐述集成AEGIS的完整流程。这里假设我们已经准备好了新任务数据集（如domain_images和domain_captions）和一个小型的通用保留数据集（如retain_images和retain_texts）。

3.1 环境准备与模型加载

首先，确保环境包含必要的库。除了torch和transformers，我们可能还需要accelerate来简化分布式训练。

pip install torch transformers accelerate datasets peft

然后，加载预训练的VLA模型和对应的处理器（Tokenizer和Image Processor）。这里以假设的模型qwen2-vl-7b为例。

from transformers import AutoModelForVision2Seq, AutoProcessor model_name = "Qwen/Qwen2-VL-7B-Instruct" model = AutoModelForVision2Seq.from_pretrained( model_name, torch_dtype=torch.bfloat16, # 根据硬件选择精度 device_map="auto" # 使用accelerate自动分配设备 ) processor = AutoProcessor.from_pretrained(model_name) # 设置为训练模式，并确保所有参数可训练（如果是全参数微调） model.train() for param in model.parameters(): param.requires_grad = True

3.2 构建AEGIS梯度投影层

这是核心的实现部分。我们需要创建一个类或函数，在训练循环中拦截梯度并完成投影操作。

class AEGISProjector: def __init__(self, model, retain_data_loader, projection_strength=1.0): """ Args: model: 需要保护的模型。 retain_data_loader: 保留数据集的DataLoader。 projection_strength: 投影强度，1.0表示完全正交投影。可以小于1以软化约束。 """ self.model = model self.retain_loader = retain_data_loader self.strength = projection_strength self.retain_grad = None # 缓存保留梯度 self.update_frequency = 100 # 每100步更新一次保留梯度 def compute_retain_gradient(self): """计算并缓存当前模型参数下的保留梯度。""" self.model.train() self.model.zero_grad() # 从保留数据加载器中取一个批次 retain_batch = next(iter(self.retain_loader)) inputs = processor(images=retain_batch['image'], text=retain_batch['text'], return_tensors="pt", padding=True, truncation=True) inputs = {k: v.to(model.device) for k, v in inputs.items()} # 计算保留损失。这里以图文对比损失（ITM）为例，实际可根据需要选择。 # 假设模型输出包含对比损失或我们可以构造一个。 outputs = model(**inputs, use_contrastive_loss=True) retain_loss = outputs.loss # 或者 outputs.contrastive_loss retain_loss.backward() # 收集所有可训练参数的梯度，并展平为一个向量 retain_grad_vec = [] for name, param in self.model.named_parameters(): if param.requires_grad and param.grad is not None: retain_grad_vec.append(param.grad.view(-1)) self.retain_grad = torch.cat(retain_grad_vec) self.model.zero_grad() # 清空梯度，为后续新任务计算做准备 def project_gradients(self, current_step): """执行梯度投影。应在计算完新任务梯度后、优化器step前调用。""" if self.retain_grad is None or current_step % self.update_frequency == 0: self.compute_retain_gradient() # 同样，收集当前新任务的梯度并展平 new_grad_vec = [] param_shapes = {} for name, param in self.model.named_parameters(): if param.requires_grad and param.grad is not None: param_shapes[name] = param.grad.shape new_grad_vec.append(param.grad.view(-1)) new_grad_flat = torch.cat(new_grad_vec) # 计算投影：new_grad_flat = new_grad_flat - alpha * retain_grad # alpha = (new_grad_flat · retain_grad) / ||retain_grad||^2 dot_product = torch.dot(new_grad_flat, self.retain_grad) norm_sq = torch.dot(self.retain_grad, self.retain_grad) + 1e-10 # 防止除零 alpha = (dot_product / norm_sq) * self.strength projected_grad_flat = new_grad_flat - alpha * self.retain_grad # 将投影后的扁平梯度重新分配回各个参数 idx = 0 for name, param in self.model.named_parameters(): if param.requires_grad and param.grad is not None: numel = param.grad.numel() param.grad.data = projected_grad_flat[idx: idx+numel].view(param_shapes[name]).clone() idx += numel

3.3 集成到训练循环中

现在，我们将AEGISProjector嵌入标准的训练循环。

from torch.utils.data import DataLoader from transformers import AdamW, get_scheduler # 假设 train_dataloader 是新任务数据的DataLoader # 假设 retain_dataloader 是保留数据的DataLoader aegis = AEGISProjector(model, retain_dataloader, projection_strength=1.0) optimizer = AdamW(model.parameters(), lr=5e-5) num_training_steps = len(train_dataloader) * num_epochs lr_scheduler = get_scheduler("linear", optimizer, num_warmup_steps=100, num_training_steps=num_training_steps) model.train() for epoch in range(num_epochs): for step, batch in enumerate(train_dataloader): # 1. 新任务前向与反向传播 inputs = processor(images=batch['image'], text=batch['text'], return_tensors="pt", padding=True, truncation=True) inputs = {k: v.to(model.device) for k, v in inputs.items()} outputs = model(**inputs) loss = outputs.loss loss.backward() # 此时，model.parameters().grad 存储了新任务梯度 # 2. 应用AEGIS梯度投影 current_global_step = epoch * len(train_dataloader) + step aegis.project_gradients(current_global_step) # 3. 优化器更新参数 optimizer.step() lr_scheduler.step() optimizer.zero_grad() # ... 记录日志等

3.4 与PEFT（如LoRA）结合

如果你使用LoRA进行参数高效微调，集成方式几乎一样。只需要确保AEGISProjector中收集和分配梯度时，针对的是所有可训练参数（包括LoRA引入的适配器参数）。

from peft import LoraConfig, get_peft_model lora_config = LoraConfig( r=8, lora_alpha=32, target_modules=["q_proj", "v_proj", "fc1", "fc2"], # 针对VLA模型视觉编码器和LLM部分的常见模块 lora_dropout=0.1, bias="none", ) model = get_peft_model(model, lora_config) # 此时，只有LoRA参数 requires_grad=True # AEGISProjector的代码无需改动，它会自动只处理这些可训练参数。

4. 实战中的权衡、调参与效果评估

将AEGIS集成到训练管线中只是第一步。要让其发挥最佳效果，避免引入新问题，需要在以下几个关键点上仔细权衡和调试。

4.1 保留数据集的选择与构建

这是AEGIS效果的天花板。保留数据集的质量和代表性至关重要。

规模：不需要大，几百到几千个样本通常足够。太大反而会增加不必要的计算开销。
内容：必须覆盖你希望模型保留的核心能力。对于通用VLA，应包含多样化的场景、物体、动作和复杂的视觉-语言关系。可以从多个公开数据集中均匀采样组合，如COCO（物体和场景）、Visual Genome（关系）、TextCaps（密集描述）等。
任务形式：保留损失的计算方式应与你想保留的能力对应。如果你想保留图文匹配能力，就用对比损失；如果想保留视觉特征提取，可以在图像编码器后接一个简单的分类头，在保留数据集上计算分类损失。一个常见的陷阱是，保留任务与新任务形式差异过大，导致梯度方向冲突本身就不显著，AEGIS的收益有限。

4.2 投影强度与更新频率的调参

投影强度 (projection_strength)：公式中的系数。设为1.0是严格正交投影。但有时完全正交可能过于严格，会轻微拖慢新任务的学习速度。你可以将其设置为0.7到1.0之间的值，作为一个超参数进行小网格搜索。我的经验是，在新任务数据量远小于预训练数据时，可以设置得接近1.0（如0.9）；如果新任务数据量较大，可以适当降低（如0.7），给模型更多适应新分布的空间。
保留梯度更新频率 (update_frequency)：由于模型参数在不断更新，G_retain的方向也在变化。更新太频繁（如每步都更新）成本高；更新太慢（如全程不变）则保护可能失效。100-500步更新一次是一个不错的起点。你可以监控保留数据集上的验证损失，如果该损失在训练中期开始显著上升，说明保护可能失效了，需要提高更新频率。

4.3 效果评估：不仅仅是看准确率

评估AEGIS的效果需要一个综合的评估集：

新任务测试集：评估微调的主要目标达成情况。
保留任务测试集：评估旧知识遗忘程度。这应该与保留数据集同分布但不相交。
第三方通用基准：例如，在VQA-v2、GQA或图像描述任务（如COCO Karpathy test）上测试，这是最有力的证明，表明模型的通用能力没有退化。

理想的成功标志是：在新任务上的性能达到或接近不使用AEGIS的基线微调方法（可能略低1-2个百分点，这是避免遗忘的合理代价），同时在保留任务和通用基准上的性能下降幅度显著小于基线微调方法。例如，基线微调可能导致通用VQA准确率下降15%，而使用AEGIS可能只下降3-5%。

4.4 可能遇到的“坑”与应对策略

训练不稳定或发散：如果投影后梯度的范数变得异常大或小，可能导致训练不稳定。可以尝试对投影后的梯度进行裁剪（torch.nn.utils.clip_grad_norm_），或者引入一个很小的阻尼因子到分母中（norm_sq + epsilon）。
计算开销成为瓶颈：尽管保留数据集小，但每N步计算一次全模型梯度仍有成本。对于超大模型，可以考虑：
- 只对模型的关键部分（如视觉编码器到LLM的投影层、LLM的前几层）应用AEGIS，而不是全模型。
- 使用梯度检查点（Gradient Checkpointing）来节省compute_retain_gradient时的显存。
- 探索更高效的近似算法，例如随机投影或使用Fisher信息矩阵的对角线来近似重要的参数方向。
与复杂优化器（如Adam）的交互：Adam等优化器会维护梯度的一阶矩和二阶矩估计。AEGIS修改了原始梯度，这可能会影响Adam的动量积累。一种更干净的做法是在AEGIS投影后，手动将param.grad赋值给optimizer，确保优化器看到的是修改后的梯度。上面的示例代码已经体现了这一点。

5. 超越AEGIS：与其他抗遗忘技术的对比与组合

AEGIS是解决灾难性遗忘的一种“基于梯度操作”的方法。了解它的同类和替代方案，能帮助我们做出更合适的技术选型。

弹性权重巩固（EWC）：通过计算参数在旧任务上的Fisher信息矩阵（重要性权重），在微调新任务时，对重要的旧参数施加惩罚。EWC需要存储每个参数的Fisher信息，对于大模型来说存储开销大，且计算Fisher信息本身成本高。AEGIS在运行时计算开销上通常更有优势。
重播（Replay）：在训练新任务时，混入一部分旧任务的数据。这是最直观有效的方法之一，但需要存储和重复使用旧数据，可能涉及数据隐私或存储问题。AEGIS可以看作是一种“无需存储原始数据”的隐式重播，它通过保留数据集的梯度来“提醒”模型。
知识蒸馏：训练新模型时，不仅拟合新数据，还用旧模型的输出作为“软标签”来约束新模型，以保留旧知识。这需要保留一个旧模型的副本（或前向传播一次），增加了内存或计算负担。

组合策略：在实践中，可以强强联合。例如，AEGIS + 极小比例的数据重播。保留数据集可以非常小（仅用于计算梯度），同时在新任务训练数据中混入1%-5%的旧任务数据，这能提供更直接的多任务学习信号，与AEGIS的梯度约束形成互补，往往能取得更鲁棒的效果。

6. 在不同VLA微调场景下的应用变体

AEGIS的思想可以灵活变通，适应不同的微调范式。

多任务连续学习：如果你需要让一个VLA模型依次学习任务A、B、C...，可以在学习每个新任务时，将之前所有任务的保留数据集混合（或计算混合梯度），应用AEGIS来防止对之前任务的遗忘。
领域增量学习：例如，让一个通用VLA模型先后适应医疗、法律、金融等多个垂直领域。每个领域微调时，通用保留数据集保持不变，AEGIS确保领域特异性增强不会以牺牲通用理解为代价。
与Adapter或Prefix Tuning结合：对于这类只在模型中添加少量额外参数的PEFT方法，知识遗忘问题可能本身就不严重，因为主干参数被冻结了。但如果Adapter层是共享的，AEGIS仍然可以应用在这些可训练的Adapter参数上，防止它们在适应新任务时破坏已有的跨模态表示。

在我最近的一个工业质检项目中，我们使用Qwen2-VL模型微调来生成缺陷描述报告。基线LoRA微调后，模型在缺陷描述上F1值提升了25%，但在标准VQA测试集上的准确率跌了12%。引入AEGIS（配合一个1000样本的通用图文保留集）后，缺陷描述F1值仍提升了23%，而VQA准确率仅下降不到4%。这个权衡对于需要模型保持泛化能力以处理未知缺陷类型的生产环境来说，是非常值得的。

实现过程中，最大的体会是保留数据集构建需要像设计模型架构一样被认真对待。它不是你随便扔进去的一些旧数据，而是定义“什么需要被记住”的规范说明书。花时间分析模型在微调中具体遗忘了哪些能力，并针对性地构建保留集，往往比盲目调整AEGIS的超参数带来更大的收益。

查看全文

http://www.jsqmd.com/news/1062559/