当前位置：首页 > news >正文

[论文学习]Token级差分隐私于大型语言模型：DP-Fusion 方法深入分析

news 2026/6/26 23:26:42

Token-Level Differential Privacy for LLMs / DP-Fusion

1. 核心问题与动机

大型语言模型（LLMs）在训练后部署阶段，会处理大量未见过的上下文资料，例如使用者提示、工具呼叫结果或外部资料库检索内容（RAG）。这些上下文可能包含敏感资讯，如个人识别资讯（PII：姓名、地址、病历、帐单等）、密码或医疗记录。

LLM 的生成输出可能无意中「洩漏」这些敏感 token，即使是正常使用也可能被对手透过membership inference、reconstruction attacks或jailbreak 提示提取。

传统解决方案的局限

Scrubbing / NER Redaction：使用命名实体识别（NER）移除或替换敏感 token，产业界广泛採用。但过度移除会严重损害文本效用（utility），且相邻上下文仍可能间接洩漏资讯（如代名词透露性别）。
Prompt Engineering / Paraphrasing：指示模型改写文件以避免洩漏 PII，效用较佳，但无形式化保证，易受 jailbreak 攻击，且白盒攻击者仍能高成功率推断敏感资讯。
既有 DPI 方法（如 DP-Decoding：混合 uniform distribution；DP-Prompt：logits clipping + exponential mechanism）：提供一定隐私，但效用/隐私权衡差，或仅在训练阶段有效，推论阶段保证不足。

动机

需要在推论阶段（inference-time）实现token-level的差分隐私（Differential Privacy, DP），提供可证明保证（provable bounds），同时维持高文本品质。适用情境包括医院文件隐私化、RAG 私有检索、私有 ICL（In-Context Learning）等。

DP-Fusion聚焦「文件隐私化（document privatization）」：将含敏感 token 的文件改写成隐私保护版本，供 LLM 使用。

2. 结果与成果（DP-Fusion 方法核心）

DP-Fusion是一种Token-Level Differentially Private Inference (DPI)机制，其核心创新在于混合（fusion）两个 LLM 前向传递的输出分布：

建立公开基准（public baseline）：移除所有敏感 token 群组，运行 LLM 得到 baseline 分布。
针对每个隐私群组（privacy groups）（可依 NER 信心度或类型如 NAME、DATE 分组）：运行 LLM 得到含该群组的私有分布。
混合分布：使用参数β（或 λ）控制混合，使最终输出分布与 baseline 的统计距离（Rényi divergence）有界，从而限制敏感 token 对生成 token 的影响。
自迴归生成改写文件，ϵ 参数控制 trade-off（ϵ=0 完全隐藏敏感资讯；ϵ 较大则提升品质）。

理论保证

基于Rényi DP（RDP）与近似 DP（(ε, δ)-DP），证明敏感 token 群组对输出 token 的影响有界。即使对手可适应性查询（包含 jailbreak），攻击优势仍受限。
支援多群组隐私预算分配（per-group privacy budgets），NER oracle 品质越高，保证越强（与其他方法不同）。
对邻近资料集（add/remove token）的影响有形式化界限。

实证成果

效用：在 perplexity 等指标上，比相关 DPI 方法低约6 倍（大幅更好），文本品质接近原始。
隐私：理论与经验隐私均大幅优于 baseline（scrubbing、prompt engineering、DP-Decoding、DP-Prompt）。攻击成功率显着降低。
实验涵盖多种 LLM、资料集与攻击者模型，展示稳定 trade-off。
额外好处：可缓解 prompt injection，且计算成本为多次前向传递（可接受于本地部署）。

GitHub 提供完整程式码、PyPI 套件与部署 demo，方便複製使用。

3. 分析与洞见

优势与创新点

细粒度（token-level）：超越 document-level 或 sentence-level DP，更精准保护特定敏感部分。
可扩展性：NER oracle 可替换（未来更好 tagger 会直接提升效能），隐私保证随 oracle 改善而增强。
实用性：适用开源 LLM，本地运行避免第三方信任问题；ϵ 参数提供直观控制。
对比洞见：既有方法常过度 sanitization 或无保证；DP-Fusion 在 utility/privacy Pareto 前沿明显领先，平衡了 scrubbing 的激进与 paraphrasing 的脆弱。