当前位置：首页 > news >正文

论文归纳-影响函数在LLM中的应用

news 2026/6/6 3:24:05

影响函数(Influence function)可以用来量化单个训练数据对模型参数的作用，进而对模型输出的影响。该影响可以是正面的，也可以是负面的。
影响函数常常用于训练数据归因(data attribution)、数据筛选、解释模型行为等领域。

之前的研究，例如ICML2017 best paper，对影响函数在MLP、CNN、RNN等模型的应用进行了探讨。但是将影响函数 scale 到大模型领域存在挑战：

本文将对影响函数在大模型领域的现有研究进行总结。

影响函数的定义

影响函数通过梯度 × 逆海森矩阵，量化加入 / 删除一个训练样本会让模型输出改变多少。

\[\theta_{\varepsilon, k}=\operatorname{arg} \operatorname*{min}_{\theta\in\Theta} \frac{1} {N} \sum_{i=1}^{N} \mathcal{L} ( z_{i} , \theta)+\varepsilon\mathcal{L} ( z_{k} , \theta) , \]
- \(z_k\)为训练数据中的第k个样本，考虑对该样本进行上采样时模型参数的变化
该数据对模型参数\(\theta^*\)的影响，定义为\(\varepsilon=0\)处的导数

\[\mathcal{I}_{\theta^*}(z_k) = \frac{d \theta_{\varepsilon, k}} {d \varepsilon} \Big|_{\varepsilon=0} = -H_{\theta^*}^{-1} \nabla_\theta \mathcal{L}(z_k; \theta^*) \]
- \(H_{\theta^*}\)是损失函数的海森矩阵
- \(\nabla_\theta \mathcal{L}(z_k; \theta^*)\)是样本\(z_k\)对模型参数的梯度
- 我们假设损失函数是二阶可微，且是凸的。这样海森矩阵\(H_{\theta^*}\)才存在
- 为了保证逆矩阵的存在，通常采用阻尼法，即\(H_{\theta^*} \leftarrow H_{\theta^*} + \lambda I\)；或者可以采用进一步的proximal Bregman response function (PBRF)
训练样本\(z_k\)对测试样本\(z_{\text{test}}\)的影响：

\[\mathcal{I}(z_{\text{test}}, z_k) = -\nabla_\theta \mathcal{L}(z_{\text{test}}; \theta^*)^\top H_{\theta^*}^{-1} \nabla_\theta \mathcal{L}(z_k; \theta^*) \]
- 如果省去中间的\(H_{\theta^*}\)，则退化为梯度匹配问题（也常被用于解释模型输出）

arxiv 2023, Anthropic

Pretrained models

为了更好地理解机器学习模型并减少相关风险，研究者希望找出哪些训练样本对给定行为的贡献最大。影响函数旨在回答一个反事实问题：如果将给定序列添加到训练集中，模型的参数(及其输出)会如何变化？

针对IHVP的计算挑战，文章采用Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC)近似Hessian矩阵。在与影响函数精度相似的情况下，显著提升计算速度。
针对所有候选数据的梯度计算挑战，文章提出了两个方法：
1. TF-IDF 过滤：使用TF-IDF进行打分，筛选出和query有一定重复token的、相关的top-k个数据。实验中采用的是BM25来实现TF-IDF.
2. 查询批处理：通过存储预条件查询梯度的低阶近似，可以将数百个预条件查询梯度存储在内存中，从而允许我们在这些查询之间分担训练梯度计算的成本。

影响函数作为一个工具，使得研究者能够分析模型的泛化行为。文章中得到了以下几个发现：

影响力的分布是厚尾(heavy-tailed)的，影响力分布的尾部大致遵循幂定律。然而，这种影响是分散在许多序列上的，而不是集中在少数几个序列中，这表明典型的行为模式并不是直接记忆少数几个序列的结果。
影响大致均匀地分布在各层上。不同的层表现出不同的泛化模式，上层和下层更接近于tokens，而中间层侧重于更抽象的模式。
影响函数对语序很敏感。