当前位置：首页 > news >正文

怎么评价大模型微调前后的效果

news 2026/7/31 10:52:31

文章目录

一、用选择题数据集
二、用开放生成数据集（MedBench、CMB-gen、MORQA、LLMEval-Med）
- 指标含义：
- - 1. ROUGE-L
  - 2. BERTScore
  - 3. 医疗实体 F1
  - 4. 幻觉率（Hallucination Rate）
  - 指标计算方式（权威流程）

关于大模型微调后效果，我这里给出可以量化指标

一、用选择题数据集

如：MedQA/CMB

{"question":"卧位腰椎穿刺，脑脊液压力正常值是（）","options":{"A":"190～220mmH2O","B":"80～180mmH2O","C":"50～70mmH2O","D":"230～250mmH2O"},"answer":"80～180mmH2O","answer_idx":"B","meta_info":"诊断学"}

做选择题来评估准确率。

二、用开放生成数据集（MedBench、CMB-gen、MORQA、LLMEval-Med）

{"question":"患者58岁，突发胸痛2小时，向左臂放射，大汗，呼吸困难，请给出诊断、检查、处理原则","reference_answer":"诊断：急性心肌梗死；检查：心电图、肌钙蛋白、心肌酶；处理：心电监护、吸氧、阿司匹林嚼服、抗凝、必要时PCI","entities":["急性心肌梗死","心电图","肌钙蛋白","阿司匹林","抗凝"],"hallucination_check":["禁止编造药名/病名/检查"],"source":"临床指南/专家标注"}

指标：BERTScore、ROUGE-L、医疗实体 F1、幻觉率
目的：考察模型 “生成得好不好、专不专业、有没有瞎编”。

指标含义：

1. ROUGE-L

一句话解释：衡量模型生成内容与标准答案的字词重叠度
评估重点：答案完整性、关键词覆盖率
分数特点：0~1，越高越接近标准答案
通俗理解：模型说的内容和标准答案重合多少

2. BERTScore

一句话解释：基于语义理解的AI 自动相似度打分
评估重点：回答意思是否正确、语义一致性
分数特点：0~1，越高表示语义越匹配
通俗理解：用词不同但意思对，也能得高分

3. 医疗实体 F1

一句话解释：医学关键信息的综合准确率
关注对象：疾病名、药名、检查项目、治疗方案、禁忌症
计算维度：
- Precision：生成内容里正确的比例
- Recall：标准答案该说的都覆盖到的比例
- F1：精确率与召回率的综合得分
通俗理解：医疗核心信息说对多少

4. 幻觉率（Hallucination Rate）

一句话解释：模型瞎编、胡说、虚构内容的概率
统计范围：编造病名/药名/检查、无依据结论、与指南矛盾、虚构数据
计算公式：有幻觉的问题数 / 总问题数
分数特点：越低越好
通俗理解：模型瞎编的概率

指标计算方式（权威流程）

BERTScore / ROUGE-L
- 以数据集**reference_answer（专家金标准）**为参考
- 模型生成回答与金标准计算相似度
- 输出 0~1 分数，越高越贴近标准答案
医疗实体 F1
- 数据集提供golden entities（疾病、药物、检查、手术等标准实体）
- 从模型生成回答中抽取医疗实体
- 计算精确率、召回率、F1 分数，评估关键信息准确性
幻觉率
- 依据数据集标注的事实规范与指南要求
- 检测生成回答是否存在编造、错误、无依据内容
- 按条目统计幻觉比例，越低表示模型越可靠

http://www.jsqmd.com/news/640800/

相关文章：

Pixel Language Portal实战案例：Hunyuan-MT-7B驱动的微信小程序多语种实时对话翻译插件开发

# 005、模型选择：YOLOv5/v8模型结构解析与游戏场景下的选型策略

北京哪家火锅好吃又实惠，怎么找？认准美团火锅人气榜，好吃不贵更省心 - 资讯焦点

2026年重庆儿童绘画领域，哪些企业值得关注？好用之选大揭秘 - 企业推荐官【官方】

uni离线打包实现 ios 支付StoreKit 2，其实没有想象中那么复杂，不需要写原生插件，不需要转 uts

详解TCP三次握手与四次挥手

Agent - Reflection

Chord - Ink Shadow 部署详解：Windows系统下Docker与模型环境配置

成都怎么找最正宗的火锅店？美团火锅人气榜实测好用，新手也能零踩雷 - 资讯焦点

别再焦虑了！小白程序员必备：收藏这份AI大模型学习资源，抢占职场先机

2026乡村全科执医刷题题库深扒：这两款靠谱题库值得推荐！ - 医考机构品牌测评专家

TranslucentTB：Windows任务栏透明美化终极指南，让你的桌面焕然一新！✨

多模态大模型持续学习不是“加个Adapter”就完事：深度解析Meta新论文《Continual M3AE》中提出的跨模态原型锚定机制与3周内可部署的轻量级实现路径

零基础两周拿下PCTP认证：我的TiDB数据库专家备考笔记与实战避坑指南

HTML打包EXE三种加密方式对比：静态密码、离线一机一码、网络验证

MATLAB数据清洗实战：从Excel到干净数据的完整流程（附代码）

3分钟让Figma说中文：设计师专属的中文界面插件终极指南

AI时代软件工程师的核心能力是什么：斯坦福答案

误码率实战解析：从理论到应用的全方位指南

从博通官网精准获取ESXi与VM虚拟机套件的实战指南

硬件调试革命：3大突破让AMD Ryzen系统稳定性提升5倍

Rust 是如何判断对象是否相等的？一起来聊一聊 PartialEq 与 Eq

最大异或和路径

终极指南：如何用缠论量化插件实现通达信精准交易分析

AI算法入门：深度学习六周学习计划

LifeNet Health｜人原代肝细胞3D肝球体标准化培养实操方案【曼博生物】

新手建模常见错误：面反、破面、重叠

用ESP-01S和51单片机做个手机遥控灯：从AT指令配置到代码烧录的保姆级避坑指南

抖音无水印批量下载神器：5分钟搞定创作者素材收集的终极指南

手把手教你将大疆无人机GPS数据接入ROS：从PSDK到NavSatFix话题的保姆级封装教程