当前位置：首页 > news >正文

用 LLM-as-judge 给 Agent 答案自动打分

news 2026/6/24 2:12:22

结论先放这：Agent 改了一版 prompt 到底变好还是变差，靠人肉一条条看根本盯不过来。我后来上了一套"让大模型当裁判"的自动打分，每次迭代跑一遍就有分数,省下大把时间。下面是我真实搭的过程。

为什么要自动打分

我维护一个客服 Agent，prompt 隔三差五就要调。每次调完，我得拿一批问题手动对一遍答得好不好，一批 50 条看下来要小一个小时,看到后面眼都花了，标准还飘。

LLM-as-judge 就是再拿一个模型,给它"问题 + Agent 的答案 + 评分标准",让它打个分。机器打分,标准稳定,50 条几分钟跑完。

三步搭起来

第一步:固定一批测试集。我挑了 60 条真实问题,涵盖常见、刁钻、边界三类,存成 csv。这批以后不再变,每次迭代都拿它跑,分数才有可比性。

第二步:写裁判 prompt。这是核心,写不好分数全是噪声。我的裁判 prompt 大概长这样:

你是答案质量评审。请根据【评分标准】给【待评答案】打分。 评分标准(各项 0-2 分,满分 6): - 准确性: 答案是否事实正确、没有编造 - 完整性: 是否覆盖了用户问题的所有要点 - 简洁性: 有没有废话和重复 用户问题: {question} 参考答案: {reference} 待评答案: {answer} 请先逐项说明扣分理由,最后一行输出 JSON: {"准确性":x,"完整性":x,"简洁性":x,"总分":x}

两个关键设计:一是强制先说理由再给分,直接让它打分会乱打,先讲理由分数明显更靠谱;二是给参考答案,没有参照物裁判容易自由发挥。

第三步:把分数落到表里。每跑一版 prompt,把 60 条的总分均值、各维度均值记一行。我是在一个带效果测评模块的低代码平台上搭的，它能把每次跑批的分数自动汇总成表，我只看趋势就行——这版均分 4.8,上版 5.1,那这次改动是负优化,回退。

踩过的两个坑

坑一:裁判偏爱长答案。早期我发现啰嗦的答案分数反而高,查下来是裁判把"长"误当成"完整"。我在标准里专门加了"简洁性"这一项扣废话分,才把这个偏好掰回来。

坑二:分数会漂。同一条答案,裁判模型温度不为 0 时,跑两遍能差半分。我把裁判调用的 temperature 设成 0,并且每条只跑一次固定下来,分数才稳定可复现。

一点实话

LLM-as-judge 不是真理,它和人工评估的一致性我测下来大概八成五,剩下一成五的硬骨头(比如需要专业领域判断的)还得人来看。但它最大的价值是把"这版到底变好没"从拍脑袋变成了有数字依据,迭代速度直接翻倍。

裁判模型我没另搭,直接调的讯飞星辰那边现成的模型 API，按调用付费,跑一次 60 条测试集成本几毛钱,比养一台推理机划算太多。

http://www.jsqmd.com/news/1069978/

相关文章：

Microchip嵌入式开发资源全攻略：从数据手册到社区支持的高效导航

Origin 2025 下载Origin2025安装教程——科学绘图与数据分析入门

企业云盘选型避坑指南:5个中小团队最容易踩的文档管理误区

text2sql 怎么把表结构喂给模型

广州做小程序的公司有哪些，哪家更靠谱？

ATtiny1634 EEPROM编程与时钟配置实战：嵌入式低功耗设计核心

DeepSeek 出来的内容如何去除 # 和 ** 符号？用 DS随心转整理成 Word 更省事

Meilisearch：一个为搜索速度而生的开源引擎

自动采集数据集指南

主表 + 扩展表设计模式

制造业质量大迁徙：LIMS如何走出实验室，奔向供应链与全生命周期

基于Microchip ATA8520评估套件的SIGFOX物联网节点开发实战指南

2026年GEO信源媒体发稿平台全盘点：三种模式、代表玩家与适用场景

【2026】FreeOK官网入口，一键直达在线观看

基于ATA6663/ATA6664的LIN收发器开发板实战指南：从硬件连接到软件调试

ATtiny1634端口复用实战：ADC、PWM与中断的协同配置

ATxmega B1模拟比较器实战：配置、调试与PCB设计避坑指南

蓝牙双模模块开发实战：从AT指令到SPP/BLE数据透传

【昇腾/AscendC开发】直调模式 VS 算子框架模式? Ascend C 开发模式与入口点选择指南

灯箱制作公司怎么选？内行人揭秘关键考量因素

ClockStudio图表进阶：双Y轴与高级工具实战指南

从稳压到基准：CD47温度补偿齐纳基准源原理、选型与实战指南

3C塑料件全尺寸检测方案横评

高带宽闭环控制抗振秘籍

ATtiny1634 AVR汇编编程实战：从指令集到混合编程

Microchip ATA840x UHF发射器应用指南：从芯片选型到天线设计实战

XMEGA A3BU嵌入式开发实战：低功耗、高精度ADC与时钟系统深度优化

卵巢早衰备孕还有机会吗

Atmel SMD封装PCB热设计：从热阻参数到焊接工艺的嵌入式系统散热实战

汽车电子LIN SBC芯片ATA663232/ATA663255选型、设计与调试全解析