当前位置：首页 > news >正文

[论文学习]DP2Unlearning:高效且具保证的大型语言模型遗忘框架（基于差分隐私的 LLM Unlearning 方法）

news 2026/6/17 15:47:45

An Efficient and Guaranteed Unlearning Framework for LLMs

核心问题与动机

大型语言模型 (LLMs) 在训练过程中容易记忆训练资料中的私人资讯 (PII)、版权内容或敏感事实，导致在推论时可能无意中洩露这些资讯。这带来严重的伦理、法律与实务挑战，例如符合欧盟 GDPR 的「被遗忘权」(Right to Be Forgotten, RTBF)、美国 CCPA，以及版权法规（避免逐字複製受保护内容）。

传统解决方案是精确遗忘 (Exact Unlearning)：排除要遗忘的资料后，从头重新训练模型。这能提供完整遗忘保证，但对 LLMs 而言计算成本极高（尤其是频繁处理遗忘请求时），几乎不具可行性。

另一类是近似遗忘 (Approximate Unlearning)，如 Gradient Ascent (GA)、Gradient Difference (GD)、KL 散度最小化或 Preference Optimization (PO)，透过事后微调模型来抑制不想要的知识。这些方法效率较高，但仅依赖经验证据，缺乏形式化遗忘保证，无法充分满足法律要求（如 RTBF）。

论文动机：开发一种兼具效率与形式化保证的 LLM 遗忘框架，避免从头重训的巨额成本，同时超越现有近似方法的可靠度。

作者提出利用差分隐私 (Differential Privacy, DP)作为核心工具，在训练阶段预先注入保护机制，使后续遗忘请求能以低成本实现具保证的选择性遗忘（selective but guaranteed unlearning）。这不仅保护特定细节，同时保留模型对一般语义模式的学习能力，平衡隐私/版权保护与模型效能。

结果/成果

论文提出DP2Unlearning框架，主要包含三个阶段：

Unlearning-ready Training (阶段 A)：使用 DP-MLM（对文字资料中的名词短语等敏感部分进行概率替换）或 DP-SGD（在训练中加入梯度裁剪与高斯噪声）训练基底模型 (Base Model, BM)，提供 ε-DP 或 (ε, δ)-DP 保护。
Pre-unlearning Fine-tuning (阶段 B)：在原始完整资料上微调基底模型，恢復因 DP 保护而损失的效能，得到可部署的全资料模型 (DPFM)。
Unlearning Execution (阶段 C)：收到遗忘请求时，从基底模型开始，仅在保留资料 (Retain Set) 上进行微调，产生具保证的遗忘模型 (Unlearned Model, UM)。
阶段 A 与 B 仅执行一次，阶段 C 可重複且高效。

实验成果（使用 Phi-1.5B 与 Llama2–7B 模型，以及 TOFU 基准资料集，包含 Forget/Retain 不同比例）：

与精确遗忘基准 (Retraining From Scratch on Retain, RFS-R) 比较：DP2Unlearning 在模型效能 (Utility，如 ROUGE-L、条件机率、Truth Ratio) 上达到相似水准，但遗忘成本约降低一半（因只需较少 epoch 的微调，而非从头训练）。
与近似遗忘方法比较：在保留模型效用（Retain Set、Real-World Facts、Real Authors）与遗忘品质 (Forget Quality，使用 KS 测试等) 上大幅优于 GA、GD、KL、PO 等基线。DP 保护确保形式化保证，同时避免灾难性遗忘 (catastrophic forgetting)。
ε 参数影响：较小 ε（如 ≤1）提供更强保护但初始效用较低；较大 ε 提升效用但保护较弱。实验显示适当 ε（如 1 左右）能达到良好平衡，尤其 DP-MLM 在大型模型上更具弹性。

整体而言，框架在计算资源合理的情况下，实现了「形式保证 + 高效 + 高实用性」的目标，程式码已公开。

分析与洞见

优势与创新：

形式保证：借用 DP 的后处理免疫性 (post-processing immunity)，确保遗忘模型对 forget 资料提供 ε 级的披露保护。这比纯粹经验式的近似方法更可靠，能更好地符合法律框架。
效率提升：阶段 A/B 的一次性成本换来后续低成本遗忘。DP-MLM 特别灵活，可仅对敏感子集应用，而非全资料。
实务平衡：强调「选择性遗忘」——无需完全抹除（overkill），只需防止详细披露或逐字複製即可（符合 GDPR 匿名化概念及版权的公平使用）。这避免了过度损害模型整体知识。
边缘考量：DP 引入噪声或替换可能导致初始效用下降，但透过 fine-tuning 有效恢復。对于不同模型规模，Llama2 等大型模型对 ε 更敏感，需仔细调校。实验也讨论了 δ 在 DP-SGD 中的角色，以及多重遗忘请求的累积效应。

限制与潜在挑战：

初始 DP 训练成本仍高（尤其 DP-SGD），虽然一次性但对极大规模 LLMs 可能仍有压力。
效用恢復依赖 fine-tuning 品质；在极端遗忘比例或高度相关资料下，可能仍有边缘效能损失。
评估依赖 TOFU 等合成/控制资料集，真实世界多样性（多语言、领域特定资料）下的泛化需更多验证。
法律合规性：虽然提供形式保证，但实际法庭认定可能仍需额外审核；DP 参数选择涉及隐私-效用权衡，需领域专家参与。
与其他方法比较：虽然优于所测试基线，但未来可能出现更先进的混合或参数高效 unlearning 技术。

更广泛洞见：这篇论文突显机器遗忘 (Machine Unlearning) 从「事后补救」向「预先设计」(privacy-by-design) 转移的重要性。将 DP 整合进训练流程，不仅解决遗忘问题，也提升模型的整体可信度 (Trustworthy AI)。在 AI 监管日益严格的时代，这类框架对企业部署 LLMs 具有高度实务价值，同时推动隐私保护与创新并进。

结论

DP2Unlearning 提出了一个创新且务实的解决方案，成功弥合了精确遗忘的高成本与近似遗忘的低保证之间的鸿沟。它证明透过差分隐私的策略性应用，能以约一半成本实现具形式保证的高品质 LLM 遗忘，同时维持模型实用性。

这不仅回应了当前伦理与法律挑战，也为未来可扩展的 AI 治理提供重要参考。未来方向可能包括优化 DP 机制、处理串联遗忘请求、或扩展至多模态模型。

整体而言，这是 LLM unlearning 领域的一篇重要贡献，值得研究者与实务者深入探索与应用。

论文连结：