当前位置: 首页 > news >正文

大模型幻觉怎么量化评测:攒用例打分

先把结论甩前面:幻觉没法靠"感觉不错"来管,得攒一套带标准答案的用例集,每条按维度打分,跑出一个能横向比较的数字。下面是我自己折腾出来的一套打分流程,照着做就能落地。

背景是这样。我们组用 RAG 接了一个内部知识库给客服用,上线第二周就被投诉——它把"7天无理由"答成了"15天",文档里明明白白写的7天。当时我看日志,后台没报错,模型一脸自信,这种最坑。光靠人肉抽查根本兜不住,所以我决定把幻觉这事量化掉。

第一步:攒用例,别凭空想

用例从哪来?我没编,直接扒了三个月的真实客服对话,挑出80条带明确事实答案的问题。每条记三样东西:

  • question:用户原话

  • gold:标准答案(从知识库原文里抠出来,精确到数字/日期/条款)

  • context:这条问题对应的知识库片段

80条不多,但够看出问题了。一开始我贪心想搞500条,后来发现标注标准答案太费人——光这80条我和同事对了一下午,争论"算不算幻觉"的边界。所以建议起步别贪,先跑通。

第二步:定打分维度

幻觉不是非黑即白。我拆成四个维度,每条用例每个维度打0/1/2三档:

维度

含义

0分

1分

2分

事实一致

答案和gold对不对得上

编造/矛盾

部分对

完全一致

上下文忠实

有没有脱离context瞎发挥

凭空捏造

掺了外部信息

严格基于context

拒答合理

不知道时敢不敢说不知道

硬编

含糊带过

明确说查不到

引用可溯

答案能不能指回原文

无来源

来源模糊

给出具体片段

第三档"引用可溯"是后加的。第一版我没要,结果发现模型答得对、但你不知道它凭啥对,出了错也甩不清责任,补上之后排查快多了。

第三步:自动打分 + 人工兜底

80条×4维度=320个格子,手填会疯。我用一个裁判模型批量打,prompt 大概长这样:

JUDGE = """你是评测员。对照gold和context给answer打分。 维度: 事实一致/上下文忠实/拒答合理/引用可溯 每个维度输出0/1/2和一句理由,JSON返回。 question: {q} gold: {gold} context: {ctx} answer: {ans} """ # 跑完导出 csv,人工只复核裁判给0分的那些

裁判模型也会幻觉(套娃了属于是),所以凡是打0分的我都人工复核一遍,大概占15%,半小时搞定。全自动我不敢信。

第四步:算总分,横向比

每条用例满分8,80条满分640。我把基线模型、换提示词后、加了重排序后三个版本各跑一遍:

版本

总分

事实一致均分

拒答合理均分

基线

478

1.42

0.91

改提示词

511

1.55

1.38

加重排序

573

1.78

1.51

最大的提升来自"拒答合理"那列——从0.91干到1.51。说白了之前的版本太爱不懂装懂,加了一句"context里没有就说查不到"的约束,7天/15天那种胡答直接少了一大半。

一点真实感受

这套跑下来最大的收获不是分数,是终于能拿数据跟人吵架了。以前说"我觉得这版好点",虚;现在直接甩表,573比478,谁也别犟。

顺带说个偷懒的事。我自己没有去搭一整套评测后台,而是用了那种零代码就能拖出一个智能体的工具,把"读用例—调模型—裁判打分—回填表格"配成一条流水线。不用写调度、不用管部署,拖几个节点连起来,空了改改prompt再重跑一轮。它干的就是这种重复杂活,真要做精细的统计分析还得自己导出来用pandas算,这点别指望它。但攒用例跑分这种活,省了我至少两天搭框架的时间。

(裁判模型和被测模型的API我都走的讯飞星辰MaaS,现成调,没自己部署算力)

幻觉这东西大概率消不干净,但能量化就能管。你们是怎么评的?评论区聊聊你踩过最离谱的一次模型胡说。

http://www.jsqmd.com/news/1078449/

相关文章:

  • 量子电路优化与ZX演算在量子计算中的应用
  • 微前端架构:应用隔离与样式冲突的解决方案
  • windows10下安装WSL2及Ubuntu
  • Qwen3-Coder本地部署实战:Ollama一键启用生产级AI编程
  • 独立产品从 0 到 1:需求验证、MVP 迭代与增长飞轮的实战路径
  • LeetCode146:LRU缓存详解
  • ComfyUI工作流原理--文生视频、图生视频
  • 宝丽金APP的本金核定减损工作已开展,请速登记办理。
  • AI 辅助团队协作:智能项目管理中的任务分配与进度预测实践
  • BKM系统有限间隙解:用射流密度近似KdV与Camassa-Holm方程
  • FlyOOBE:让老旧设备也能流畅运行Windows 11的实用工具
  • AI辅助开发工具链2026版
  • 广告灯箱厂商怎么选?2026年靠谱供应商实测分享
  • 数值计算稳定性:后向误差原理与通用收敛算法设计
  • 数据治理平台怎么选?五家头部产品核心能力、技术路线与落地场景全解析
  • 显式MPC参考轨迹压缩:降维原理、方法与实践指南
  • AI 智能组件生成:从设计规范到代码产出的自动化管线
  • Django进程:Cache Backends 透视与多级缓存穿透/击穿防御
  • 火山引擎多模态数据湖的制作思路
  • EF Core 向量搜索:将 RAG 核心能力直接带入 .NET 生态
  • OpenEMS开源能源管理系统:10分钟快速上手智能能源监控与优化
  • Kimi API合规接入指南:从认证到生产部署
  • 【观止·诗史汇 HarmonyOS 实战系列 04】诗文内容包:从 Markdown 到可检索的本地诗库
  • Android7 U盘插拔链路源码全解析(七)应用层MediaScanner与SAF
  • 分布式事务一致性:从 Seata AT 模式到可靠消息最终一致的架构选型
  • MuleSoft企业级AI编排:LLM服务化、治理与合规落地实践
  • AI 存储风向标:美光指引再超预期,费半盘后全线修复
  • Python 并发模型与异步编程:从 GIL 约束到协程调度的工程实践
  • 游戏开发资源大全:一个仓库搞定所有学习资料
  • python基于框架flask模板template实现