当前位置：首页 > news >正文

连续CAT方法在LLM评估中的创新与应用

news 2026/6/7 4:30:27

1. 项目概述

在大型语言模型（LLM）评估领域，传统的计算机自适应测试（CAT）方法主要针对二元结果（正确/错误）进行评估。然而，现代LLM评估越来越多地依赖生成任务，其输出通过连续分数（如ROUGE、BLEU等）进行评分。这种转变带来了两个核心挑战：评估成本随着模型数量和测试项的增长而急剧上升，以及缺乏统计显著性检验可能导致不可复现的结果。

本文提出的连续CAT方法通过以下创新点解决了这些问题：

将IRT从二元响应扩展到连续有界分数
引入异方差正态分布来保持IRT的自然特性
开发自适应多模型排名算法
实现成本感知的测试项分配

2. 技术原理与创新

2.1 连续CAT的核心设计

传统IRT使用伯努利分布建模二元响应，其概率函数为： P(X=1|θ,a,b) = 1 / (1 + exp(-a(θ-b)))

我们将其扩展为连续版本，使用异方差正态分布： X|θ,b,k ∼ N(μ(θ,b), σ²(θ,b))

其中： μ(θ,b) = 1 / (1 + exp(-(θ-b))) σ²(θ,b) = k·μ(θ,b)·(1-μ(θ,b))

这种设计保留了IRT的关键特性：

当能力θ接近项目难度b时，方差最大（不确定性最高）
在边界附近（μ接近0或1）时，方差收缩
保持了与二元CAT相同的Fisher信息结构

2.2 参数估计方法

项目难度估计

通过校准数据计算每个项目的平均得分ˆp_i，然后进行logit变换： b_i = log((1-ˆp_i)/ˆp_i)

为避免极端值，先对ˆp_i进行min-max归一化到[ε,1-ε]区间。

噪声参数估计

使用矩估计法计算全局k值： k = Σ(y_ij - μ_ij)² / Σμ_ij(1-μ_ij)

其中μ_ij = logit⁻¹(θ_j - b_i)是模型j在项目i上的预测得分。

2.3 自适应排名算法

算法1的核心流程如下：

初始化：为每个模型设置能力初值θ_m ~ N(median(b_i), 25)
预热阶段：为每个模型分配n_init个测试项
主循环： a. 按当前θ_m排序模型 b. 识别不确定对：P(θ_i > θ_j) ∈ (1-γ, γ) c. 选择最具成本效益的模型测试： m* = argmax SE²_m / ((n_m+1)·c_m) d. 选择信息量最大的项目： i* = argmax I(θ_m*|b_i,k_i) e. 观察得分y并更新θ_m和SE_m
终止条件：所有相邻对满足置信要求或达到预算上限

3. 实现细节与优化

3.1 项目池预处理

为提高评估效率，我们对项目池进行了以下预处理：

过滤负区分度项目：
- 计算每个项目得分与模型能力的Pearson相关性
- 排除相关系数为负的项目
项目难度分布调整：
- 通过logit变换确保b_i覆盖合理范围
- 对极端困难/简单项目进行截断处理
跨模型家族泛化测试：
- 保持部分模型家族完全不在校准集中
- 验证项目参数对新架构的适用性

3.2 成本感知分配策略

我们设计了基于价值的测试分配策略：

valuem = SE²m / ((nm + 1) · cm)

其中：

SE²m反映当前估计的不确定性
(nm + 1)体现边际收益递减
cm是模型m的每次评估成本

这种策略在实践中可带来42%的成本节约，特别是在使用不同价位的API模型时效果显著。

4. 评估结果分析

4.1 主要性能指标

我们在5个基准测试上验证了方法：

数据集	指标类型	项目数	传统τ	自适应τ	项目节省
BioLaySumm	ROUGE-L	1,376	0.853	0.957	85%
GovReport	ROUGE-L	973	0.823	0.800	75%
TruthfulQA	LLM-as-Judge	817	0.400	0.490	71%
FLORES	BLEU	1,012	0.580	0.803	77%
Nemotron-PII	F1 (span-level)	2,000	0.707	0.673	93%