当前位置: 首页 > news >正文

大模型三类分类测评指标梳理

大模型整体分类:按模型能力分成判别型、生成型、推理型 3 大类,企业选型时依据业务场景对应查看测评指标,用来横向对比各大模型优劣。

一、判别型大模型

传统 AI:分类 / 打分 / 预测,输出类别 / 数值

定位

多用于风控识别、内容审核、疾病筛查、垃圾邮件分类等,输出固定分类结果测评核心:分类结果准不准

四大核心指标 + 释义、公式逻辑、适用场景

表格

指标核心关注点通俗解释短板 & 适用场景
Accuracy 准确率全局整体正确率

正确样本 ÷ 全部样本,数值越高整体效果越好

(整体猜对的总数占全部)

缺陷:数据不均衡时失真例:95% 样本为 A 类,无脑全判 A 就能拿到 95% 高准确率,但实际无效
Precision 精确率不误判、不冤枉负样本(少 FP 假正例)

模型标记为正例的样本里,真正是正例的占比公式:举例:查出 50 封垃圾邮件,10 封误判正常邮件→40/50=80%

(抓回来的人里,真小偷占比)

内容封禁、司法判别场景优先看,避免误封合规内容、错判无罪样本FP:负样本错判成正样本(正常邮件标垃圾)
Recall 召回率不漏检、不错放正样本(少 FN 假负例)

所有真实正例中,被模型成功找出来的占比公式:

(全部真小偷里,被抓到的比例)

医疗诊断、金融反欺诈、灾害预警首选FN:真实正例错判成负样本(患病被判健康、盗刷判正常交易)
F1-Score精确率 & 召回率综合平衡值

精确率、召回率调和平均值,公式:数值越高两项指标越均衡

(精准和召回的综合成绩单)

样本不均衡场景刚需:罕见病筛查、垃圾邮件、诈骗识别案例:99 封正常 + 1 封垃圾,全判正常→准确率 99%,但召回、精确率、F1 全为 0,直接暴露模型缺陷
  • 真实违规 (1)、模型判违规 (1) TP
  • 真实违规 (1)、模型误判正常 (0) FN
  • 真实正常 (0)、模型判正常 (0) TN
  • 真实正常 (0)、模型误判违规 (1) FP

选型快速选择口诀

  1. 怕漏检(癌症筛查、反诈、预警)→优先 Recall 召回率
  2. 怕误判(内容封禁、风控处罚)→优先 Precision 精确率
  3. 样本分布悬殊、需要综合平衡→优先 F1 分数

二、生成型大模型(文案 / 对话 / 总结,输出自然文本)

定位

产品智能客服、文案生成、知识库问答(RAG),测评核心:输出文本质量、流畅度、多样性

三大测评维度

  1. 3H 原则(文本质量顶层标准)
    • Helpfulness 有用性:回答贴合用户提问、能解决实际需求
    • Honesty 真实性:不编造虚假信息、不胡说杜撰
    • Harmless 无害性:无违规、偏见、不良引导内容
  2. 通用文本量化指标(算法指标):衡量语句通顺、语义贴合度(如 BLEU、ROUGE 等)
  3. 企业 RAG 专属指标:面向知识库问答场景,重点考核引用来源准确性、幻觉概率、召回知识库原文精准度

三、推理型大模型(数学 / 逻辑 / 代码 / 复杂计算题,侧重逻辑推导)

定位

数理解题、代码编写、复杂业务逻辑推演,测评核心:推理逻辑严谨性、最终答案正确率

两大核心指标

  1. Pass@k 通过率多用于数学、代码测评:同一个题目给模型 k 次作答机会,任意一次答对即算该题通过;通过率越高,模型容错与解题能力越强。
  2. CoT Consistency 思维链一致性重复多次提问同一问题,若模型多轮推理思考路径不一样,但最终答案统一,代表模型逻辑稳定、不会前后自相矛盾。

「量化 CoT 执行得好不好、思考深不深」的过程指标

  • CoT 思维链:强制模型先写「分步思考、分析、推导」,再出答案 → 必然拉高:思考长度、膨胀率、推理耗时、纠错次数
  • 逐项对应:
  1. latency 延迟CoT 会显著增加推理 token 量 →延迟变长、显卡负载升高。 同硬件下:CoT 模式 latency 远大于普通问答。

  2. reasoning_len 思考量CoT 的核心就是拉长显式思考过程→ reasoning_len 大幅上升; CoT 越细致、分步越多,思考长度越大。

  3. backtrack_count 纠错力(回溯次数)只有有完整思考过程,模型才会出现「想错→发现→修正」。

    • 无 CoT 直答:几乎没有回溯,backtrack_count≈0
    • 复杂问题 + CoT:思考链条变长,更容易触发逻辑自查、推翻前文 → 回溯次数显著增加 结论:CoT 是观测纠错力的前提
  4. expansion_ratio 推理膨胀率公式:膨胀率 = 推理字数 / (最终答案字数+1)CoT 把中间推理内容显性输出,分子(推理字数)暴增,分母(最终答案)不变 / 变化很小 →CoT 模式下膨胀率天然大幅升高。 补充:

    • 高难度题 + 强 CoT → 膨胀率极高(大量推演、试错、纠错)
    • 简单题 + CoT → 膨胀率中等(简单走流程,无深度推演)

总结:

  1. 做分类、风控、打分业务→判别模型:按需选用准确率 / 精确率 / 召回率 / F1
  2. 做对话、写文案、知识库问答→生成模型:3H + 文本质量 + RAG 专项指标
  3. 做数学运算、代码开发、复杂逻辑分析→推理模型:Pass@k + 思维链一致性
http://www.jsqmd.com/news/986398/

相关文章:

  • 中央重磅部署“人工智能+” 推动一二三产业向智能化跃迁
  • 寄快递怎么便宜些?这几招帮你省一半运费 - 快递物流资讯
  • 广州无证书钻石别扔!添价收免费检测估价,不压价秒到账 - 薛定谔的梨花猫
  • 2026年车库门彩涂卷厂家深度测评:如何为你的车库门项目匹配最佳方案? - 热点速览
  • 参加深信服SF-Fastgpt培训小结
  • 借助AI再次理解三次握手和四次挥手
  • 【分享】7.3 提前摸清面试官背景:为什么这不叫“套路“,叫“尊重“
  • 告别乱码!手把手教你配置VSCode的Verilog-Format插件(附GitHub下载加速方案)
  • 上海防水堵漏公司对比:晶亮 VS 传统公司,3 大维度见真章 - 热点速览
  • 绿色积分不是骗局,是太多人把它用成了骗局
  • 从‘虚短虚断’到动手搭建:我的第一个差分放大电路仿真与实测全记录(附Multisim文件)
  • 微信是怎么知道你是同一个用户的?UV统计的底层秘密
  • Verilog代码整洁之道:用VSCode+verilog-format打造你的专属格式化工作流
  • 别再手动复制了!用RStudio的sink()函数自动记录你的完整分析日志
  • 2026年贵州刺梨饮品代理商必读:从源头工厂甄别到全国招商的深度决策指南 - 年度推荐企业名录
  • 高考毕业励志图片素材 轻松搞定毕业季宣传配图
  • 2026珠海黄金回收哪家靠谱?全城线下门店实地测评 - zzlzzl6688
  • 龙虾很强,但企业需要「帝王蟹」!
  • 2026年广西大邦教育科技有限公司职称助评公司推荐:中级职称/高级职称全流程服务精选 - 品牌推荐官
  • 2026新西兰三类签证代办成功率解析:专业服务的核心逻辑 - 奔跑123
  • FinalShell保存的密码安全吗?一个Java脚本带你解密本地存储机制
  • 支付宝立减金闲置可惜 盘点安全合规的回收渠道 - 圆圆收
  • KAPT生成代码的集成与管理
  • 海悟参编液冷不锈钢管路团标 完善数据中心液冷温控标准体系
  • 无锡装修公司真实口碑汇总:综合实力与客户认可度双优装企解析 - 装修新知
  • 在 Fly.io 上使用 Rust 构建远程开发环境:从 Tokio 到 eBPF
  • 哪款眼油可以紧致眼周?提拉紧致眼周的3款眼油,双眸更显立体 - 全网最美
  • 创梦汤锅学习日记day28
  • 你的AI Agent为什么每次对话都“失忆“?三层记忆模型彻底解决
  • 贵州刺梨饮品代工厂家怎么选?2026年源头工厂与全国招商加盟平台深度对标 - 年度推荐企业名录