当前位置: 首页 > news >正文

GB/T 45288.2-2025 《人工智能 大模型 第2部分:评测指标与方法》详解

GB/T 45288.2-2025 《人工智能 大模型 第2部分:评测指标与方法》

发布:国家市场监督管理总局 国家标准化管理委员会,2025-02-28 实施


一、核心框架:"2-4-6" 评测体系

该标准采用"2-4-6" 框架构建系统化评测体系:

组成说明
2 类评测视角理解能力 + 生成能力
4 类评测要素工具、数据、方法、指标
6 大评测维度功能性、准确性、可靠性、安全性、交互性、应用性

二、评测指标体系

1. 理解能力评测指标

单模态维度:

二级维度涵盖能力
文本文本分类、信息抽取、数学推理、因果推理、常识推理、任务分解、文本问答、多轮对话、代码理解、长文本理解
图像静态图像分类、静态图像分割、目标检测、动态图像分类、行为识别
音频声纹识别、音频问答、环境音分类

多模态维度:

二级维度涵盖能力
图文图文检索、静态图像问答、视觉空间关系、视觉语言推理、视觉蕴含
文音文音检索、语音翻译
图音视频异常检测、有声视频检索
图文音视频问答、有声视频问答、图表推理

2. 生成能力评测指标

单模态维度:

二级维度涵盖能力
文本摘要总结、机器翻译、文本改写、文本扩写、文本续写、代码生成、半结构化数据生成

多模态维度:

二级维度涵盖能力
图文文本生成图片、图片生成文本描述
图文音文本生成视频、视频生成文本描述、文本生成有声视频、有声视频生成文本描述
文音语音合成、语音识别、语音翻译

三、评测维度详解(6 大维度)

维度说明
功能性模型能否完成指定任务
准确性模型输出的正确程度
可靠性模型在异常情况下的稳定性
安全性内容过滤、隐私保护、价值观对齐等
交互性模型与用户的交互体验
应用性模型在实际应用场景中的适用性

四、评测方法

方法适用场景说明
自动化评测有明确标准答案的任务(分类、抽取、问答等)使用准确率、召回率、F1、BLEU、ROUGE 等指标
人工评测生成类、主观性强的任务(摘要、翻译、图文生成)MOS 平均意见得分,从相关度、完整度等维度打分
大模型裁判评测开放性问题使用高能力大模型作为评分器,需引入人工审核机制

五、评测实施要求

  • 评测数据集要求:满足合规性和隐私保护、指标完备、时效性、可用性、多样性和代表性
  • 数据标注流程:符合 GB/T 42755—2023 第6章和第7章要求
  • 数据量要求:单个能力项不少于200 条测试数据
  • 评测执行:对评测工具执行3 次,取平均值作为最终结果
  • 评测分级:分为基础能力项和增强能力项,增强能力评测需在通过基础能力评测后进行

六、适用对象

  • 模型提供者:指导大模型设计、开发、优化
  • 应用服务者:评估模型技术水平和服务能力
  • 应用消费者:为选型采购提供评判依据
  • 监管者:为行业监管提供统一参照

七、配套工具与数据集

工具/数据集用途
LMBench国家标准评测工具,覆盖主客观评测及多模态能力
MMLU评测知识广度和推理能力(57个任务,13,062题)
C-Eval中文理解能力评测(52个学科,13,948题)
TruthfulQA真实性与抗幻觉评测
FLAMES价值观对齐评测(2,251个提示,约18.7K响应)
EvalScope / OpenCompass评测执行平台

八、一句话总结

GB/T 45288.2-2025 为大模型评测提供了统一的"度量衡",覆盖理解与生成两大能力、六个核心维度,为研发优化、产品选型、应用监管提供了权威、系统、可复现的评测方法论。

http://www.jsqmd.com/news/685961/

相关文章:

  • 从“Recipe terminated with error.”到编译成功:聚焦VSCode中LaTeX配置的“全局”与“工作区”陷阱
  • 10分钟实现魔兽争霸3现代化改造:WarcraftHelper深度配置指南
  • 从零到一:在Windows系统上部署嘉立创EDA专业版全流程解析
  • 网盘下载新革命:告别限速,八大平台直链解析全攻略
  • LibreOffice Draw:是开源免费的全能工具吗
  • 从零到一:用Qwen3-VL-2B搭建智能图片分析系统,完整教程
  • 目前APP可能不是很耗电
  • nli-MiniLM2-L6-H768应用落地:电商评论情感推理与法律条款矛盾检测实战
  • 2025-2026年国际移动机器人锂电池厂家评测:五家口碑产品推荐评价领先低温环境性能衰减 - 品牌推荐
  • 2026年金源环宇深度解析:从技术专利布局看其机器人动力电源核心竞争力分析 - 品牌推荐
  • 别再只配ntp-service unicast-server了!华为设备NTP五种工作模式详解与选型指南
  • 告别编译噩梦:用Qt在线安装器搞定MITK所有依赖(OpenSSL、Qt组件一键配齐)
  • 突破Windows版本限制:Docker Desktop替代方案全解析
  • AI与机器学习:核心技术差异与应用场景解析
  • bge-large-zh-v1.5实战应用:快速搭建智能文档检索系统
  • 爱思益VS海马职加盘点与测评:基于第三方数据与行业报告的职业辅导机构权威解析与选择指南 - 品牌推荐
  • 从零实现地震波场模拟:交错网格有限差分法核心代码精讲
  • 2026年3月全球移动机器人锂电池厂家推荐:五家口碑产品评测对比领先仓储搬运续航焦虑 - 品牌推荐
  • Qianfan-OCR部署教程:Docker Compose编排+Redis缓存+异步任务队列增强版
  • 武汉 12 大正规贷款机构推荐|银行 + 助贷全覆盖,附本地放款数据 - 品牌企业推荐师(官方)
  • 2026年金源环宇深度解析:从技术专利布局看其行业竞争力指南 - 品牌推荐
  • 从传统机器学习到智能体AI系统的实践指南
  • 收藏|2026全面解析AI Agent开发技术路线图,从入门到实战全覆盖
  • 价值对齐:“AI+Data”时代技术战略与组织进化的核心命题
  • STM32CubeMX+HAL库驱动SHT31温湿度传感器(附完整代码与CRC校验避坑指南)
  • FLUX.1-Krea-Extracted-LoRA快速试用:3个高转化率电商提示词模板分享
  • 为什么推荐0.6温度?DeepSeek-R1-Distill-Qwen-1.5B输出稳定性测试
  • Redis 缓存一致性设计模式
  • 如何快速掌握COBRA工具箱:基因组尺度代谢网络分析的完整指南
  • 量子-经典混合计算框架:原理、挑战与应用