[论文学习]Token级差分隐私于大型语言模型:DP-Fusion 方法深入分析
Token-Level Differential Privacy for LLMs / DP-Fusion
1. 核心问题与动机
大型语言模型(LLMs)在训练后部署阶段,会处理大量未见过的上下文资料,例如使用者提示、工具呼叫结果或外部资料库检索内容(RAG)。这些上下文可能包含敏感资讯,如个人识别资讯(PII:姓名、地址、病历、帐单等)、密码或医疗记录。
LLM 的生成输出可能无意中「洩漏」这些敏感 token,即使是正常使用也可能被对手透过membership inference、reconstruction attacks或jailbreak 提示提取。
传统解决方案的局限
- Scrubbing / NER Redaction:使用命名实体识别(NER)移除或替换敏感 token,产业界广泛採用。但过度移除会严重损害文本效用(utility),且相邻上下文仍可能间接洩漏资讯(如代名词透露性别)。
- Prompt Engineering / Paraphrasing:指示模型改写文件以避免洩漏 PII,效用较佳,但无形式化保证,易受 jailbreak 攻击,且白盒攻击者仍能高成功率推断敏感资讯。
- 既有 DPI 方法(如 DP-Decoding:混合 uniform distribution;DP-Prompt:logits clipping + exponential mechanism):提供一定隐私,但效用/隐私权衡差,或仅在训练阶段有效,推论阶段保证不足。
动机
需要在推论阶段(inference-time)实现token-level的差分隐私(Differential Privacy, DP),提供可证明保证(provable bounds),同时维持高文本品质。适用情境包括医院文件隐私化、RAG 私有检索、私有 ICL(In-Context Learning)等。
DP-Fusion聚焦「文件隐私化(document privatization)」:将含敏感 token 的文件改写成隐私保护版本,供 LLM 使用。
2. 结果与成果(DP-Fusion 方法核心)
DP-Fusion是一种Token-Level Differentially Private Inference (DPI)机制,其核心创新在于混合(fusion)两个 LLM 前向传递的输出分布:
- 建立公开基准(public baseline):移除所有敏感 token 群组,运行 LLM 得到 baseline 分布。
- 针对每个隐私群组(privacy groups)(可依 NER 信心度或类型如 NAME、DATE 分组):运行 LLM 得到含该群组的私有分布。
- 混合分布:使用参数β(或 λ)控制混合,使最终输出分布与 baseline 的统计距离(Rényi divergence)有界,从而限制敏感 token 对生成 token 的影响。
- 自迴归生成改写文件,ϵ 参数控制 trade-off(ϵ=0 完全隐藏敏感资讯;ϵ 较大则提升品质)。
理论保证
- 基于Rényi DP(RDP)与近似 DP((ε, δ)-DP),证明敏感 token 群组对输出 token 的影响有界。即使对手可适应性查询(包含 jailbreak),攻击优势仍受限。
- 支援多群组隐私预算分配(per-group privacy budgets),NER oracle 品质越高,保证越强(与其他方法不同)。
- 对邻近资料集(add/remove token)的影响有形式化界限。
实证成果
- 效用:在 perplexity 等指标上,比相关 DPI 方法低约6 倍(大幅更好),文本品质接近原始。
- 隐私:理论与经验隐私均大幅优于 baseline(scrubbing、prompt engineering、DP-Decoding、DP-Prompt)。攻击成功率显着降低。
- 实验涵盖多种 LLM、资料集与攻击者模型,展示稳定 trade-off。
- 额外好处:可缓解 prompt injection,且计算成本为多次前向传递(可接受于本地部署)。
GitHub 提供完整程式码、PyPI 套件与部署 demo,方便複製使用。
3. 分析与洞见
优势与创新点
- 细粒度(token-level):超越 document-level 或 sentence-level DP,更精准保护特定敏感部分。
- 可扩展性:NER oracle 可替换(未来更好 tagger 会直接提升效能),隐私保证随 oracle 改善而增强。
- 实用性:适用开源 LLM,本地运行避免第三方信任问题;ϵ 参数提供直观控制。
- 对比洞见:既有方法常过度 sanitization 或无保证;DP-Fusion 在 utility/privacy Pareto 前沿明显领先,平衡了 scrubbing 的激进与 paraphrasing 的脆弱。
限制与边缘案例
- 计算开销:每个群组需额外 LLM 呼叫,对于极长上下文或多群组可能昂贵(可优化如 batching 或近似)。
- NER 依赖:false negative(漏标敏感 token)仅享经验保护;false positive 则被纳入保证(较安全但略增开销)。
- 攻击者模型:假设灰盒(知方法与模型权重,但无 logits 存取),对更强白盒或 side-channel 攻击需额外考量。
- 效用边界:极低 ϵ 下仍可能影响连贯性,尤其高度依赖敏感上下文的任务(如特定医疗诊断)。
- 泛化:主要验证文件改写,延伸至一般 RAG/ICL 需更多实测;多语言或非英文资料集效果待验证。
更广洞见
- 反映 LLM 部署从「训练隐私」转向「推论隐私」的重要性。DP-Fusion 提供一套框架,可延伸至其他生成任务。
- 强调「oracle + mechanism」组合:更好敏感检测 + 强 DPI 机制是未来方向。
- 隐私不是二元,而是可调控光谱;形式化保证让系统设计者能量化风险与合规(e.g., GDPR)。
- 潜在社会影响:促进 LLM 在医疗、金融等敏感领域安全部署,降低再识别风险,但也需注意过度隐私可能损害可用性。
4. 结论
DP-Fusion是 LLM 推论阶段 token-level 差分隐私的重大进展,提供可证明、细粒度且实用的解决方案,有效解决既有方法在保证与效用上的双重不足。
透过分布融合机制,它在保护敏感 token 的同时,显着提升生成文本品质,为私有 RAG、文件 sanitization 等应用开闢新路径。
论文不仅贡献理论框架与实证优势,还开放程式码,具高度可複製性。未来方向可能包括降低计算成本、整合更先进 NER/检测器、多模态延伸,或在更大规模模型上的验证。
此工作强化了「隐私为预设」的 AI 部署理念,对负责任 AI 发展具有重要意义。
论文连结
- arXiv:https://arxiv.org/abs/2507.04531
- PDF:https://arxiv.org/pdf/2507.04531.pdf
