当前位置: 首页 > news >正文

怎么评价大模型微调前后的效果

文章目录

  • 一、用选择题数据集
  • 二、用开放生成数据集(MedBench、CMB-gen、MORQA、LLMEval-Med)
    • 指标含义:
      • 1. ROUGE-L
      • 2. BERTScore
      • 3. 医疗实体 F1
      • 4. 幻觉率(Hallucination Rate)
      • 指标计算方式(权威流程)

关于大模型微调后效果,我这里给出可以量化指标

一、用选择题数据集

如:MedQA/CMB

{"question":"卧位腰椎穿刺,脑脊液压力正常值是()","options":{"A":"190~220mmH2O","B":"80~180mmH2O","C":"50~70mmH2O","D":"230~250mmH2O"},"answer":"80~180mmH2O","answer_idx":"B","meta_info":"诊断学"}

做选择题来评估准确率。

二、用开放生成数据集(MedBench、CMB-gen、MORQA、LLMEval-Med)

{"question":"患者58岁,突发胸痛2小时,向左臂放射,大汗,呼吸困难,请给出诊断、检查、处理原则","reference_answer":"诊断:急性心肌梗死;检查:心电图、肌钙蛋白、心肌酶;处理:心电监护、吸氧、阿司匹林嚼服、抗凝、必要时PCI","entities":["急性心肌梗死","心电图","肌钙蛋白","阿司匹林","抗凝"],"hallucination_check":["禁止编造药名/病名/检查"],"source":"临床指南/专家标注"}
  • 指标:BERTScore、ROUGE-L、医疗实体 F1、幻觉率
  • 目的:考察模型 “生成得好不好、专不专业、有没有瞎编”。

指标含义:

1. ROUGE-L

  • 一句话解释:衡量模型生成内容与标准答案的字词重叠度
  • 评估重点:答案完整性、关键词覆盖率
  • 分数特点:0~1,越高越接近标准答案
  • 通俗理解:模型说的内容和标准答案重合多少

2. BERTScore

  • 一句话解释:基于语义理解的AI 自动相似度打分
  • 评估重点:回答意思是否正确、语义一致性
  • 分数特点:0~1,越高表示语义越匹配
  • 通俗理解:用词不同但意思对,也能得高分

3. 医疗实体 F1

  • 一句话解释:医学关键信息的综合准确率
  • 关注对象:疾病名、药名、检查项目、治疗方案、禁忌症
  • 计算维度:
    • Precision:生成内容里正确的比例
    • Recall:标准答案该说的都覆盖到的比例
    • F1:精确率与召回率的综合得分
  • 通俗理解:医疗核心信息说对多少

4. 幻觉率(Hallucination Rate)

  • 一句话解释:模型瞎编、胡说、虚构内容的概率
  • 统计范围:编造病名/药名/检查、无依据结论、与指南矛盾、虚构数据
  • 计算公式:有幻觉的问题数 / 总问题数
  • 分数特点:越低越好
  • 通俗理解:模型瞎编的概率

指标计算方式(权威流程)

  1. BERTScore / ROUGE-L

    • 以数据集**reference_answer(专家金标准)**为参考
    • 模型生成回答与金标准计算相似度
    • 输出 0~1 分数,越高越贴近标准答案
  2. 医疗实体 F1

    • 数据集提供golden entities(疾病、药物、检查、手术等标准实体)
    • 从模型生成回答中抽取医疗实体
    • 计算精确率、召回率、F1 分数,评估关键信息准确性
  3. 幻觉率

    • 依据数据集标注的事实规范与指南要求
    • 检测生成回答是否存在编造、错误、无依据内容
    • 按条目统计幻觉比例,越低表示模型越可靠
http://www.jsqmd.com/news/640800/

相关文章:

  • Pixel Language Portal实战案例:Hunyuan-MT-7B驱动的微信小程序多语种实时对话翻译插件开发
  • # 005、模型选择:YOLOv5/v8模型结构解析与游戏场景下的选型策略
  • 北京哪家火锅好吃又实惠,怎么找?认准美团火锅人气榜,好吃不贵更省心 - 资讯焦点
  • 2026年重庆儿童绘画领域,哪些企业值得关注?好用之选大揭秘 - 企业推荐官【官方】
  • uni离线打包实现 ios 支付StoreKit 2,其实没有想象中那么复杂,不需要写原生插件,不需要转 uts
  • 详解TCP三次握手与四次挥手
  • Agent - Reflection
  • Chord - Ink Shadow 部署详解:Windows系统下Docker与模型环境配置
  • 成都怎么找最正宗的火锅店?美团火锅人气榜实测好用,新手也能零踩雷 - 资讯焦点
  • 别再焦虑了!小白程序员必备:收藏这份AI大模型学习资源,抢占职场先机
  • 2026乡村全科执医刷题题库深扒:这两款靠谱题库值得推荐! - 医考机构品牌测评专家
  • TranslucentTB:Windows任务栏透明美化终极指南,让你的桌面焕然一新!✨
  • 多模态大模型持续学习不是“加个Adapter”就完事:深度解析Meta新论文《Continual M3AE》中提出的跨模态原型锚定机制与3周内可部署的轻量级实现路径
  • 零基础两周拿下PCTP认证:我的TiDB数据库专家备考笔记与实战避坑指南
  • HTML打包EXE三种加密方式对比:静态密码、离线一机一码、网络验证
  • MATLAB数据清洗实战:从Excel到干净数据的完整流程(附代码)
  • 3分钟让Figma说中文:设计师专属的中文界面插件终极指南
  • AI时代软件工程师的核心能力是什么:斯坦福答案
  • 误码率实战解析:从理论到应用的全方位指南
  • 从博通官网精准获取ESXi与VM虚拟机套件的实战指南
  • 硬件调试革命:3大突破让AMD Ryzen系统稳定性提升5倍
  • Rust 是如何判断对象是否相等的?一起来聊一聊 PartialEq 与 Eq
  • 最大异或和路径
  • 终极指南:如何用缠论量化插件实现通达信精准交易分析
  • AI算法入门:深度学习六周学习计划
  • LifeNet Health|人原代肝细胞3D肝球体标准化培养实操方案【曼博生物】
  • 新手建模常见错误:面反、破面、重叠
  • 用ESP-01S和51单片机做个手机遥控灯:从AT指令配置到代码烧录的保姆级避坑指南
  • 抖音无水印批量下载神器:5分钟搞定创作者素材收集的终极指南
  • 手把手教你将大疆无人机GPS数据接入ROS:从PSDK到NavSatFix话题的保姆级封装教程