当前位置: 首页 > news >正文

大模型---大模型的评测

目录

一.训练阶段指标

二.生成任务指标

三.大模型的评测基准

四.Arena/人类偏好评测

五.长上下文评测

六.当前评测面临的问题


本篇偏向汇总,不是详细梳理:

一.训练阶段指标

(1)交叉熵

训练阶段如何看模型学得怎么样,这里最核心的是交叉熵(Cross-Entropy)/负对数似然(NLL)。对语言模型来说,本质任务是“给下一个 token 分配概率”;训练时最常见的目标,就是让模型给真实 token 更高概率。对 one-hot 标签而言,交叉熵就等价于“真实 token 概率的负对数”,真实 token 概率越高,loss 越低。更严格地说,交叉熵满足:

其中,H(p)表示熵,也就是真实分布p本身有多“不确定”;H(p,q):交叉熵,也就是,如果真实分布是p,但你却用q来描述它,要付出多大代价;(pq):KL散度,预测分布q和真实分布p之间差了多少。所以当真实分布 p 固定时,最小化交叉熵,本质上就是让预测分布 q 逼近真实分布。

(2)困惑度(Perplexity)

困惑度可以理解成语言模型平均每一步“有多难选下一个 token”。如果用自然对数,通常有:

PPL=81 就像从 81 个候选词里选一个,PPL 越低越好。对固定上下文窗口的模型,评估 PPL 时最好采用sliding window,而不是粗暴地分块截断。这里还要注意,PPL 不能脱离 tokenizer 直接横向比较。因为模型是对 token 序列建模,不同 tokenizer 会直接改变 token 切分方式,从而影响 perplexity。

二.生成任务指标

(1)BLEU

BLEU 是机器翻译中非常经典的自动指标,本质上是基于 n-gram 的精确率(precision),再配上brevity penalty,防止模型只输出很短的结果也拿高分。它适合“参考答案相对固定”的任务,比如机器翻译。

针对机器翻译,BLEU计算的是候选译文与参考译文之间n-gram的重合度(精确率)。如果参考译文本身就不唯一、变化很大,那么一个很好的生成结果可能因为和某一个固定参考译文的重叠率低而得低分。例如,假设一个源句有多种完全不同的正确翻译(比如文学性意译),BLEU只会机械地对比n-gram是否出现,无法判断“意思对但措辞完全不同”的情况,容易误判。

http://www.jsqmd.com/news/623709/

相关文章:

  • 告别WPF原生丑控件:用HandyControl 3.4.0快速打造现代化桌面应用界面
  • 手机端 Outlook 收不到新邮件推送提示?一篇文章教你排查苹果 安卓 鸿蒙通知问题
  • 分析2026年北京铁路轨道交通桥梁球型支座性价比高的品牌有哪些 - 工业品牌热点
  • ChanlunX缠论插件:通达信自动化技术分析终极指南
  • 台州寒雪制冷设备有限公司:台州路桥区低温库 速冻库维修公司电话 - LYL仔仔
  • Windows系统优化终极指南:揭秘WinUtil如何让你的电脑焕然一新
  • CLIP ViT-H-14镜像快速上手:stop.sh停止脚本与服务生命周期管理
  • 拼多多发票API实战指南:从接入到自动化开票全流程解析
  • 9N50 -ASEMI中大功率设计的首选9N50
  • 免费开源游戏串流平台Sunshine:5步搭建你的专属云游戏服务器
  • 2026年抚顺装修机构最新推荐榜/家装,办公室装修,二手房装修 - 品牌策略师
  • Qwen3-TTS-12Hz-1.7B-Base实战落地:短视频配音与播客内容批量生成方案
  • 交易心得
  • 网络协议分析AI应用:使用PyTorch进行加密流量分类与异常检测
  • Vue2 全局事件总线(Event Bus)封装实战:从零构建跨组件通信核心模块
  • 从两电平到三电平:手把手教你用Simulink搭建NPC逆变器的SVPWM仿真模型(附模型下载)
  • 【AI游戏开发黄金窗口期】:倒计时18个月!基于奇点大会实测数据的3类团队转型成功率对比(附迁移成本测算表)
  • 说说泉州贴隐形车衣靠谱品牌推荐,哪家性价比高? - 工业设备
  • 瑞祥提货劵回收行情新鲜出炉,回收步骤解说 - 猎卡回收公众号
  • HY-Motion 1.0详细步骤:从HuggingFace下载→模型加载→推理→FBX导出全链路
  • 【AI原生系统稳定性基石】:20年架构师亲授限流熔断4层防御模型(QPS突增97%场景实测有效)
  • 智慧校园建设如何把钱花在刀刃上 职校预算控制实战经验谈
  • Kandinsky-5.0-I2V-Lite-5s Web工具深度解析:非ChatUI的专业图生视频交互设计
  • Outlook 邮件中的压缩包附件无法打开怎么办?一篇文章教你用 7-Zip 正确查看附件内容
  • 拯救者笔记本终极优化指南:用Lenovo Legion Toolkit告别臃肿官方软件
  • 探讨东莞绝缘垫片优质供应商,怎么选择合适的 - myqiye
  • AudioLDM-S实战:快速生成机械键盘声、猫咪呼噜,小白轻松上手
  • 这个binder面试题你会吗?-学员作业
  • 从CTFHub一道题,聊聊MySQL中那些容易被忽略的‘非主流’函数:REPLACE、CHAR与注入新思路
  • 誉财 YC - 10+ 双头全自动烫标机:服装商标烫印的变革先锋