当前位置：首页 > news >正文

【研发类-AI和ML开发Skills】advanced-evaluation 技能

news 2026/5/6 1:09:56

本技能用于实现LLM作为评判者的生产级评估技术。当用户要求"实现LLM-as-judge"、"比较模型输出"、"创建评估标准"、"缓解评估偏差"，或提及直接评分、成对比较、位置偏差、评估管道或自动化质量评估时，应使用此技能。

技能概述

advanced-evaluation 技能涵盖了使用LLM作为评判者评估LLM输出的生产级技术。它综合了学术论文、行业实践和实际实施经验的研究成果，转化为构建可靠评估系统的可操作模式。

核心洞察：LLM-as-a-Judge不是单一技术，而是一系列方法，每种方法适用于不同的评估场景。选择正确的方法并缓解已知偏差是本技能培养的核心能力。

下载地址：https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/advanced-evaluation

主要功能

直接评分（Direct Scoring）：单个LLM在定义的量表上对一个响应进行评分，适用于客观标准（事实准确性、指令遵循、毒性检测）
成对比较（Pairwise Comparison）：LLM比较两个响应并选择更好的一个，适用于主观偏好（语气、风格、说服力）
偏差缓解：识别并缓解LLM评判者的系统性偏差，包括位置偏差、长度偏差、自我增强偏差、冗长偏差、权威偏差
评估标准生成：创建明确定义的评估标准，将评估方差降低40-60%
评估管道设计：构建多层生产级评估系统
指标选择框架：根据评估任务结构选择合适的指标

触发条件

在以下情况下应该调用此技能:

构建LLM输出的自动化评估管道
比较多个模型响应以选择最佳响应
在评估团队中建立一致的质量标准
调试显示不一致结果的评估系统
为提示或模型更改设计A/B测试
为人工或自动化评估创建标准
分析自动化与人工判断之间的相关性
用户提及"实现LLM-as-judge"、"比较模型输出"、"创建评估标准"、"缓解评估偏差"
用户提及直接评分、成对比较、位置偏差、评估管道或自动化质量评估

使用场景

场景1：构建自动化评估管道

当需要为LLM输出建立自动化质量评估系统时，使用本技能设计多层评估管道，包括标准加载、主要评分、偏差缓解和置信度评分。

场景2：模型输出比较

当需要比较多个模型的响应以选择最佳响应时，使用成对比较方法，并通过位置交换来缓解位置偏差。

场景3：创建评估标准

当需要为人工或自动化评估创建一致的评分标准时，使用评估标准生成功能创建包含级别描述、特征、示例和边缘情况指导的标准。

场景4：调试评估系统

当评估系统显示不一致结果时，使用偏差识别和缓解技术诊断问题，并通过置信度校准提高评估可靠性。

处理过程

1. 评估方法选择

根据评估任务结构选择合适的评估方法：

直接评分：适用于客观标准（事实准确性、指令遵循、格式合规性）
成对比较：适用于偏好或质量判断（语气、风格、说服力、创造力）
参考评估：适用于摘要（与源比较）、翻译（与参考比较）

2. 直接评分实现

直接评分需要三个组件：明确的标准、校准的量表和结构化输出格式。

标准定义：名称、描述、权重
量表校准：1-3量表（最低认知负荷）、1-5量表（标准Likert）、1-10量表（高粒度但难以校准）
提示结构：任务描述、原始提示、响应、标准、指令、输出格式
思维链要求：所有评分提示必须在评分前要求理由，研究显示这可将可靠性提高15-25%

3. 成对比较实现

成对比较在偏好评估中本质上更可靠，但需要偏差缓解。

位置偏差缓解协议：第一轮（A在前，B在后）、第二轮（B在前，A在后）、一致性检查、最终裁决
置信度校准：两次通过一致时置信度为平均置信度，不一致时置信度为0.5，裁决为TIE

4. 评估标准生成

明确定义的评估标准可将评估方差降低40-60%。

级别描述：每个分数级别的明确边界
特征：定义每个级别的可观察特征
示例：每个级别的代表性文本（可选但有价值）
边缘情况：模糊情况的指导
评分指南：一致应用的一般原则

5. 偏差识别与缓解

LLM评判者表现出必须主动缓解的系统性偏差：

位置偏差：第一位置的响应在成对比较中获得优待。缓解：交换位置评估两次，使用多数投票或一致性检查
长度偏差：较长的响应被评为更高，无论质量如何。缓解：明确提示忽略长度，长度标准化评分
自我增强偏差：模型对自己输出的评分更高。缓解：使用不同模型进行生成和评估
冗长偏差：详细解释获得更高分数，即使不必要。缓解：特定标准标准，惩罚无关细节
权威偏差：自信、权威的语气被评为更高，无论准确性如何。缓解：要求证据引用，事实核查层

输入要求

使用此技能时,用户需要提供:

待评估的LLM响应
原始提示（Prompt）
评估标准（可选，如未提供将生成）
评估量表（可选，默认1-5）
评估方法偏好（直接评分或成对比较）
领域特定要求（可选）

输出说明

技能将提供:

结构化评分结果（JSON格式）
每个标准的分数和理由
证据引用
改进建议
置信度分数
位置一致性分析（成对比较）
评估标准文档（如需要生成）

使用示例

示例1：直接评分评估准确性

{
"criterion": "Factual Accuracy",
"score": 5,
"evidence": [
"Correctly identifies axial tilt as primary cause",
"Correctly explains differential sunlight by hemisphere",
"No factual errors present"
],
"justification": "Response accurately explains the cause of seasons with correct scientific reasoning. Both the axial tilt and its effect on sunlight distribution are correctly described.",
"improvement": "Could add the specific tilt angle (23.5°) for completeness."
}

示例2：成对比较与位置交换

{
"winner": "B",
"confidence": 0.7,
"positionConsistency": {
"consistent": true,
"firstPassWinner": "B",
"secondPassWinner": "B"
}
}

最佳实践

始终在评分前要求理由- 思维链提示可将可靠性提高15-25%
始终在成对比较中交换位置- 单次比较会被位置偏差破坏
将量表粒度与标准特异性匹配- 没有详细级别描述不要使用1-10量表
分离客观和主观标准- 客观使用直接评分，主观使用成对比较
包含置信度分数- 校准到位置一致性和证据强度
明确定义边缘情况- 模糊情况会导致最大的评估方差
使用领域特定标准- 通用标准产生通用（不太有用）的评估
根据人工判断验证- 自动化评估只有与人工评估相关时才有价值
监控系统性偏差- 按标准、响应类型、模型跟踪分歧模式
为迭代设计- 评估系统通过反馈循环改进

常见反模式

反模式：没有理由的评分

问题：评分缺乏基础，难以调试或改进

解决方案：始终在评分前要求基于证据的理由

反模式：单次成对比较

问题：位置偏差破坏结果

解决方案：始终交换位置并检查一致性

反模式：过载标准

问题：测量多个事物的标准不可靠

解决方案：一个标准 = 一个可测量方面

反模式：缺少边缘情况指导

问题：评估者对模糊情况的处理不一致

解决方案：在标准中包含边缘情况及明确指导

反模式：忽略置信度校准

问题：高置信度的错误判断比低置信度更糟糕

解决方案：校准置信度到位置一致性和证据强度

指标选择框架

任务类型	主要指标	次要指标
二元分类（通过/失败）	Recall, Precision, F1	Cohen's κ
有序量表（1-5评分）	Spearman's ρ, Kendall's τ	Cohen's κ (加权)
成对偏好	一致性率, 位置一致性	置信度校准
多标签	Macro-F1, Micro-F1	每标签precision/recall