当前位置: 首页 > news >正文

【研发类-AI和ML开发Skills】advanced-evaluation 技能

本技能用于实现LLM作为评判者的生产级评估技术。当用户要求"实现LLM-as-judge"、"比较模型输出"、"创建评估标准"、"缓解评估偏差",或提及直接评分、成对比较、位置偏差、评估管道或自动化质量评估时,应使用此技能。

技能概述

advanced-evaluation 技能涵盖了使用LLM作为评判者评估LLM输出的生产级技术。它综合了学术论文、行业实践和实际实施经验的研究成果,转化为构建可靠评估系统的可操作模式。

核心洞察:LLM-as-a-Judge不是单一技术,而是一系列方法,每种方法适用于不同的评估场景。选择正确的方法并缓解已知偏差是本技能培养的核心能力。

下载地址:https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/advanced-evaluation

主要功能

  • 直接评分(Direct Scoring):单个LLM在定义的量表上对一个响应进行评分,适用于客观标准(事实准确性、指令遵循、毒性检测)
  • 成对比较(Pairwise Comparison):LLM比较两个响应并选择更好的一个,适用于主观偏好(语气、风格、说服力)
  • 偏差缓解:识别并缓解LLM评判者的系统性偏差,包括位置偏差、长度偏差、自我增强偏差、冗长偏差、权威偏差
  • 评估标准生成:创建明确定义的评估标准,将评估方差降低40-60%
  • 评估管道设计:构建多层生产级评估系统
  • 指标选择框架:根据评估任务结构选择合适的指标

触发条件

在以下情况下应该调用此技能:

  • 构建LLM输出的自动化评估管道
  • 比较多个模型响应以选择最佳响应
  • 在评估团队中建立一致的质量标准
  • 调试显示不一致结果的评估系统
  • 为提示或模型更改设计A/B测试
  • 为人工或自动化评估创建标准
  • 分析自动化与人工判断之间的相关性
  • 用户提及"实现LLM-as-judge"、"比较模型输出"、"创建评估标准"、"缓解评估偏差"
  • 用户提及直接评分、成对比较、位置偏差、评估管道或自动化质量评估

使用场景

场景1:构建自动化评估管道

当需要为LLM输出建立自动化质量评估系统时,使用本技能设计多层评估管道,包括标准加载、主要评分、偏差缓解和置信度评分。

场景2:模型输出比较

当需要比较多个模型的响应以选择最佳响应时,使用成对比较方法,并通过位置交换来缓解位置偏差。

场景3:创建评估标准

当需要为人工或自动化评估创建一致的评分标准时,使用评估标准生成功能创建包含级别描述、特征、示例和边缘情况指导的标准。

场景4:调试评估系统

当评估系统显示不一致结果时,使用偏差识别和缓解技术诊断问题,并通过置信度校准提高评估可靠性。

处理过程

1. 评估方法选择

根据评估任务结构选择合适的评估方法:

  • 直接评分:适用于客观标准(事实准确性、指令遵循、格式合规性)
  • 成对比较:适用于偏好或质量判断(语气、风格、说服力、创造力)
  • 参考评估:适用于摘要(与源比较)、翻译(与参考比较)

2. 直接评分实现

直接评分需要三个组件:明确的标准、校准的量表和结构化输出格式。

  • 标准定义:名称、描述、权重
  • 量表校准:1-3量表(最低认知负荷)、1-5量表(标准Likert)、1-10量表(高粒度但难以校准)
  • 提示结构:任务描述、原始提示、响应、标准、指令、输出格式
  • 思维链要求:所有评分提示必须在评分前要求理由,研究显示这可将可靠性提高15-25%

3. 成对比较实现

成对比较在偏好评估中本质上更可靠,但需要偏差缓解。

  • 位置偏差缓解协议:第一轮(A在前,B在后)、第二轮(B在前,A在后)、一致性检查、最终裁决
  • 置信度校准:两次通过一致时置信度为平均置信度,不一致时置信度为0.5,裁决为TIE

4. 评估标准生成

明确定义的评估标准可将评估方差降低40-60%。

  • 级别描述:每个分数级别的明确边界
  • 特征:定义每个级别的可观察特征
  • 示例:每个级别的代表性文本(可选但有价值)
  • 边缘情况:模糊情况的指导
  • 评分指南:一致应用的一般原则

5. 偏差识别与缓解

LLM评判者表现出必须主动缓解的系统性偏差:

  • 位置偏差:第一位置的响应在成对比较中获得优待。缓解:交换位置评估两次,使用多数投票或一致性检查
  • 长度偏差:较长的响应被评为更高,无论质量如何。缓解:明确提示忽略长度,长度标准化评分
  • 自我增强偏差:模型对自己输出的评分更高。缓解:使用不同模型进行生成和评估
  • 冗长偏差:详细解释获得更高分数,即使不必要。缓解:特定标准标准,惩罚无关细节
  • 权威偏差:自信、权威的语气被评为更高,无论准确性如何。缓解:要求证据引用,事实核查层

输入要求

使用此技能时,用户需要提供:

  • 待评估的LLM响应
  • 原始提示(Prompt)
  • 评估标准(可选,如未提供将生成)
  • 评估量表(可选,默认1-5)
  • 评估方法偏好(直接评分或成对比较)
  • 领域特定要求(可选)

输出说明

技能将提供:

  • 结构化评分结果(JSON格式)
  • 每个标准的分数和理由
  • 证据引用
  • 改进建议
  • 置信度分数
  • 位置一致性分析(成对比较)
  • 评估标准文档(如需要生成)

使用示例

示例1:直接评分评估准确性

{
"criterion": "Factual Accuracy",
"score": 5,
"evidence": [
"Correctly identifies axial tilt as primary cause",
"Correctly explains differential sunlight by hemisphere",
"No factual errors present"
],
"justification": "Response accurately explains the cause of seasons with correct scientific reasoning. Both the axial tilt and its effect on sunlight distribution are correctly described.",
"improvement": "Could add the specific tilt angle (23.5°) for completeness."
}

示例2:成对比较与位置交换

{
"winner": "B",
"confidence": 0.7,
"positionConsistency": {
"consistent": true,
"firstPassWinner": "B",
"secondPassWinner": "B"
}
}

最佳实践

  1. 始终在评分前要求理由- 思维链提示可将可靠性提高15-25%
  2. 始终在成对比较中交换位置- 单次比较会被位置偏差破坏
  3. 将量表粒度与标准特异性匹配- 没有详细级别描述不要使用1-10量表
  4. 分离客观和主观标准- 客观使用直接评分,主观使用成对比较
  5. 包含置信度分数- 校准到位置一致性和证据强度
  6. 明确定义边缘情况- 模糊情况会导致最大的评估方差
  7. 使用领域特定标准- 通用标准产生通用(不太有用)的评估
  8. 根据人工判断验证- 自动化评估只有与人工评估相关时才有价值
  9. 监控系统性偏差- 按标准、响应类型、模型跟踪分歧模式
  10. 为迭代设计- 评估系统通过反馈循环改进

常见反模式

反模式:没有理由的评分

问题:评分缺乏基础,难以调试或改进

解决方案:始终在评分前要求基于证据的理由

反模式:单次成对比较

问题:位置偏差破坏结果

解决方案:始终交换位置并检查一致性

反模式:过载标准

问题:测量多个事物的标准不可靠

解决方案:一个标准 = 一个可测量方面

反模式:缺少边缘情况指导

问题:评估者对模糊情况的处理不一致

解决方案:在标准中包含边缘情况及明确指导

反模式:忽略置信度校准

问题:高置信度的错误判断比低置信度更糟糕

解决方案:校准置信度到位置一致性和证据强度

指标选择框架

任务类型主要指标次要指标
二元分类(通过/失败)Recall, Precision, F1Cohen's κ
有序量表(1-5评分)Spearman's ρ, Kendall's τCohen's κ (加权)
成对偏好一致性率, 位置一致性置信度校准
多标签Macro-F1, Micro-F1每标签precision/recall

相关技能

  • context-fundamentals- 评估提示需要有效的上下文结构
  • tool-design- 评估工具需要正确的模式和错误处理
  • context-optimization- 评估提示可以优化令牌效率
  • evaluation(基础) - 本技能扩展了基础评估概念

参考资源

  • Eugene Yan: Evaluating the Effectiveness of LLM-Evaluators
  • Judging LLM-as-a-Judge (Zheng et al., 2023)
  • G-Eval: NLG Evaluation using GPT-4 (Liu et al., 2023)
  • Large Language Models are not Fair Evaluators (Wang et al., 2023)

技能元数据

  • 创建日期:2024-12-24
  • 最后更新:2024-12-24
  • 作者:Muratcan Koylan
  • 版本:1.0.0
  • 风险等级:safe
  • 来源:community

限制说明

  • 仅当任务明确匹配上述范围时使用此技能
  • 不要将输出视为环境特定验证、测试或专家评审的替代品
  • 如果缺少所需输入、权限、安全边界或成功标准,请停止并请求澄清
http://www.jsqmd.com/news/760504/

相关文章:

  • 南京及周边防水补漏技术指南:靠谱服务商怎么选 - 奔跑123
  • Go语言dotUI框架:声明式TUI开发,构建现代化终端界面
  • 3步解密微信聊天记录:轻松恢复被加密的珍贵数据
  • 2026年Q2酒店陶瓷餐具性价比服务商深度剖析:以怀仁陶瓷怀益瓷业为例 - 2026年企业推荐榜
  • 【读书笔记】逆向思维与心智防线:从《穷查理宝典》看高段位认知升级
  • 2026箱变专用空调技术解析:机房空调、机柜空调、水冷式螺杆机组、电控柜空调、电柜空调、电气柜空调、箱变专用空调选择指南 - 优质品牌商家
  • 基于开源套件构建企业级RAG系统:从上下文工程到工程化实践
  • VISJUDGE模型:数据可视化评估的技术原理与实践
  • 2026Q2茶园虫害测报仪优质品牌推荐指南:植物补光灯、农业虫害监测、可视化虫害监测设备、智能虫害监测设备、智能虫情性诱测报仪选择指南 - 优质品牌商家
  • AD软件破解版在办公室局域网总报错?可能是这个‘LAPTOP-F99R6OR1’在搞鬼,3步自查与解决
  • 海安代理记账机构排行:海安记账报税、海安个体户注册、海安代办营业执照、海安代理记账、海安公司注册、海安工商代办选择指南 - 优质品牌商家
  • Python文件自动分类整理工具:从规则引擎到安全实践
  • 北京同城开锁|24小时极速上门、正规持证服务,红祥兴真心靠谱推荐 - 奔跑123
  • 《企业AI成功部署实战指南:51 次成功部署的经验教训》给我们的启发
  • Emacs配置文件的奥秘:Windows与Linux的差异
  • 实战指南:基于快马平台和yolov5构建企业级视频安防监控系统
  • AnimeCursor:基于原生CSS实现高性能逐帧动画光标
  • 告别手动搬运!用PanTools v1.0.11实现夸克、阿里云盘资源一键互转(附账号池配置)
  • ToolPRMBench:评估与优化LLM工具使用能力的基准测试
  • TVM 部署 TinyLlama
  • 2026年至今,金坛区极简风格装修为何首选常州典佳装饰工程有限公司? - 2026年企业推荐榜
  • 告别Steam客户端!WorkshopDL让你轻松下载创意工坊资源的终极指南
  • 告别纸上谈兵:在快马平台实战模拟中优化你的狼蛛f87pro键盘宏设置
  • DATAMIND框架:数据智能代理训练与评估实战指南
  • CSS变量与单位的魔法:如何在计算中灵活应用
  • 线性注意力与稀疏激活优化GPU长序列处理
  • 2026年现阶段,如何选择靠谱的视光中心加盟品牌?视立美给出答案 - 2026年企业推荐榜
  • 透明计费与用量分析 Taotoken 如何让每一分 token 消耗都清晰可见
  • 微信小程序云开发调用云函数报错-501000?别慌,这可能是你的`config`文件在捣鬼
  • 别再死磕文档了!手把手教你用AT命令调试5G/4G模组(基于3GPP 27.007)