当前位置：首页 > news >正文

DISCO方法：高效评估机器学习模型的新范式

news 2026/4/28 8:41:06

1. 项目背景与核心挑战

现代机器学习模型的评估成本正呈指数级增长。以最新的大型语言模型（LLM）评估为例，完成一次HELM基准测试需要消耗超过4000个GPU小时，相当于单卡连续运行近半年。这种高昂成本直接导致三个严重后果：

创新壁垒：中小研究机构无力承担评估开销，加剧AI领域的马太效应
环境负担：单次模型评估的碳排放量相当于横跨美国的航班排放
迭代迟滞：训练过程中无法频繁验证，拖慢模型优化效率

传统解决方案采用"锚点选择+性能预测"的两阶段框架。如图1所示，其核心思路是通过聚类算法（如K-means）从全量测试集中选取代表性样本子集，然后建立子集准确率与全量性能的映射关系。但这种方法存在两个根本缺陷：

图1：传统方法依赖样本特征空间的聚类（左），而DISCO关注模型输出空间的预测分歧（右）

2. DISCO方法的核心创新

2.1 理论基础：为什么预测分歧更重要

我们从信息论角度证明：对于模型排序任务，样本的信息量与其引发的模型预测分歧度直接相关。具体而言：

命题1：给定M个源模型在样本x上的预测分布{p₁(x),...,p_M(x)}，其Jensen-Shannon散度(JSD)与模型性能估计的信息量满足：

I(S;Y) = H(Y) - E[H(Y|m)] = JSD(p₁,...,p_M)

其中S为模型性能指标，Y为集成预测结果。这意味着最大化预测分歧等价于最大化信息获取。

这一发现颠覆了传统认知——样本本身的多样性（如特征分布）并非关键，真正重要的是模型在这些样本上的行为多样性。如图2所示，高PDS样本能更好地区分模型能力差异。

图2：高PDS样本（右）比随机样本（左）产生更分散的准确率分布

2.2 算法实现：两阶段框架

阶段1：基于PDS的样本选择

采用预测分歧分数（Predictive Diversity Score）作为选择标准：

def compute_pds(models, sample): # models: 源模型集合 [m1,...,mM] # sample: 输入样本x preds = [model.predict_proba(sample) for model in models] return np.mean([np.max(p) for p in preds]) # 各模型最大预测概率的均值

选择流程：

使用源模型对全量测试集进行预测
计算每个样本的PDS/JSD值
选择Top-K高分歧样本构成DISCO子集

阶段2：基于模型签名的性能预测

创新性地引入模型签名概念——模型在DISCO子集上所有预测结果的拼接向量。相比传统标量准确率，签名保留了更丰富的比较信息。

我们比较两种预测器：

# K近邻预测器 def knn_predict(query_signature, database, k=5): distances = [cosine(query_signature, db['signature']) for db in database] topk_indices = np.argsort(distances)[:k] return np.mean([database[i]['true_score'] for i in topk_indices]) # 随机森林预测器 class SignatureRF: def __init__(self): self.model = RandomForestRegressor(n_estimators=100) def train(self, signatures, true_scores): self.model.fit(pca_transform(signatures), true_scores) def predict(self, signature): return self.model.predict(pca_transform([signature]))[0]

3. 关键技术细节解析

3.1 预测分歧指标的对比

我们验证了两种分歧度量指标的表现：

指标	计算复杂度	可解释性	与JSD的理论关系
JSD	O(M·C)	低	直接等价
PDS	O(M)	高	(PDS-1)² ≤ JSD ≤ logM·PDS

实验发现PDS在保持90%以上相关性的同时，计算效率提升3-5倍。这对超大规模评估尤为重要。

3.2 签名降维的工程优化

原始签名的维度为K×C（样本数×类别数），当K=100、C=1000时维度高达10万。我们对比了两种降维方法：

PCA：保留95%方差时仅需256维
UMAP：虽保持更好局部结构但计算耗时增加7倍

最终选择PCA+标准化管道，推理延迟从120ms降至8ms。

3.3 跨架构泛化能力

通过设计时间分割实验验证方法的鲁棒性：

训练集：2024年前发布的382个模型
测试集：2024年新发布的42个模型

结果显示DISCO在新型架构（如MoE模型）上仍保持0.982的排名相关性，证明其良好的泛化能力。

4. 实验结果与性能对比

4.1 语言模型评估

在MMLU（大规模多任务语言理解）基准上的关键结果：

方法	样本数	MAE(%p)	排名相关性	GPU小时
全量评估	14,000	0	1.0	13
Random+直接评估	100	3.45	0.916	0.1
Anchor-corr+gpIRT	100	2.08	0.927	0.1
DISCO(PDS+RF)	100	1.07	0.987	0.1

DISCO以1%的计算成本实现99.3%的排名准确性，误差仅1.07个百分点。图3展示了压缩率与精度的权衡曲线。

图3：不同压缩率下的MAE变化，DISCO（蓝线）始终保持最优

4.2 视觉模型评估

在ImageNet-1k验证集上的表现：

方法	MAE(%p)	排名相关性	计算节省
全量评估	0	1.0	0%
Lifelong Bench	2.06	0.838	99.8%
DISCO(PDS+RF)	0.63	0.969	99.8%

值得注意的是，视觉任务中模型签名方法展现更强优势，因为图像分类的预测分布包含更丰富的比较信息。

5. 实际应用指南

5.1 部署建议

持续监控场景：

class ModelMonitor: def __init__(self, disco_samples): self.disco_samples = disco_samples self.reference_db = [] # 存储已知模型的签名和性能 def add_reference(self, model, full_eval_score): signature = model.predict(self.disco_samples) self.reference_db.append({'signature':signature, 'score':full_eval_score}) def estimate(self, new_model): signature = new_model.predict(self.disco_samples) return knn_predict(signature, self.reference_db)

训练中间验证：

# 每5个epoch运行DISCO评估 for epoch in range(100): train_one_epoch() if epoch % 5 == 0: disco_score = disco_eval(val_samples) wandb.log({"disco_acc": disco_score})