当前位置：首页 > news >正文

GB/T 45288.2-2025 《人工智能大模型第2部分：评测指标与方法》详解

news 2026/8/2 21:41:41

GB/T 45288.2-2025 《人工智能大模型第2部分：评测指标与方法》

发布：国家市场监督管理总局国家标准化管理委员会，2025-02-28 实施

一、核心框架："2-4-6" 评测体系

该标准采用"2-4-6" 框架构建系统化评测体系：

组成	说明
2 类评测视角	理解能力 + 生成能力
4 类评测要素	工具、数据、方法、指标
6 大评测维度	功能性、准确性、可靠性、安全性、交互性、应用性

二、评测指标体系

1. 理解能力评测指标

单模态维度：

二级维度	涵盖能力
文本	文本分类、信息抽取、数学推理、因果推理、常识推理、任务分解、文本问答、多轮对话、代码理解、长文本理解
图像	静态图像分类、静态图像分割、目标检测、动态图像分类、行为识别
音频	声纹识别、音频问答、环境音分类

多模态维度：

二级维度	涵盖能力
图文	图文检索、静态图像问答、视觉空间关系、视觉语言推理、视觉蕴含
文音	文音检索、语音翻译
图音	视频异常检测、有声视频检索
图文音	视频问答、有声视频问答、图表推理

2. 生成能力评测指标

单模态维度：

二级维度	涵盖能力
文本	摘要总结、机器翻译、文本改写、文本扩写、文本续写、代码生成、半结构化数据生成

多模态维度：

二级维度	涵盖能力
图文	文本生成图片、图片生成文本描述
图文音	文本生成视频、视频生成文本描述、文本生成有声视频、有声视频生成文本描述
文音	语音合成、语音识别、语音翻译

三、评测维度详解（6 大维度）

维度	说明
功能性	模型能否完成指定任务
准确性	模型输出的正确程度
可靠性	模型在异常情况下的稳定性
安全性	内容过滤、隐私保护、价值观对齐等
交互性	模型与用户的交互体验
应用性	模型在实际应用场景中的适用性

四、评测方法

方法	适用场景	说明
自动化评测	有明确标准答案的任务（分类、抽取、问答等）	使用准确率、召回率、F1、BLEU、ROUGE 等指标
人工评测	生成类、主观性强的任务（摘要、翻译、图文生成）	MOS 平均意见得分，从相关度、完整度等维度打分
大模型裁判评测	开放性问题	使用高能力大模型作为评分器，需引入人工审核机制

五、评测实施要求

评测数据集要求：满足合规性和隐私保护、指标完备、时效性、可用性、多样性和代表性
数据标注流程：符合 GB/T 42755—2023 第6章和第7章要求
数据量要求：单个能力项不少于200 条测试数据
评测执行：对评测工具执行3 次，取平均值作为最终结果
评测分级：分为基础能力项和增强能力项，增强能力评测需在通过基础能力评测后进行

六、适用对象

模型提供者：指导大模型设计、开发、优化
应用服务者：评估模型技术水平和服务能力
应用消费者：为选型采购提供评判依据
监管者：为行业监管提供统一参照

七、配套工具与数据集

工具/数据集	用途
LMBench	国家标准评测工具，覆盖主客观评测及多模态能力
MMLU	评测知识广度和推理能力（57个任务，13,062题）
C-Eval	中文理解能力评测（52个学科，13,948题）
TruthfulQA	真实性与抗幻觉评测
FLAMES	价值观对齐评测（2,251个提示，约18.7K响应）
EvalScope / OpenCompass	评测执行平台

八、一句话总结

GB/T 45288.2-2025 为大模型评测提供了统一的"度量衡"，覆盖理解与生成两大能力、六个核心维度，为研发优化、产品选型、应用监管提供了权威、系统、可复现的评测方法论。

http://www.jsqmd.com/news/685961/

相关文章：

从“Recipe terminated with error.”到编译成功：聚焦VSCode中LaTeX配置的“全局”与“工作区”陷阱

10分钟实现魔兽争霸3现代化改造：WarcraftHelper深度配置指南

从零到一：在Windows系统上部署嘉立创EDA专业版全流程解析

网盘下载新革命：告别限速，八大平台直链解析全攻略

LibreOffice Draw:是开源免费的全能工具吗

从零到一：用Qwen3-VL-2B搭建智能图片分析系统，完整教程

目前APP可能不是很耗电

nli-MiniLM2-L6-H768应用落地：电商评论情感推理与法律条款矛盾检测实战

2025-2026年国际移动机器人锂电池厂家评测：五家口碑产品推荐评价领先低温环境性能衰减 - 品牌推荐

2026年金源环宇深度解析：从技术专利布局看其机器人动力电源核心竞争力分析 - 品牌推荐

别再只配ntp-service unicast-server了！华为设备NTP五种工作模式详解与选型指南

告别编译噩梦：用Qt在线安装器搞定MITK所有依赖（OpenSSL、Qt组件一键配齐）

突破Windows版本限制：Docker Desktop替代方案全解析

AI与机器学习：核心技术差异与应用场景解析

bge-large-zh-v1.5实战应用：快速搭建智能文档检索系统

爱思益VS海马职加盘点与测评：基于第三方数据与行业报告的职业辅导机构权威解析与选择指南 - 品牌推荐

从零实现地震波场模拟：交错网格有限差分法核心代码精讲

2026年3月全球移动机器人锂电池厂家推荐：五家口碑产品评测对比领先仓储搬运续航焦虑 - 品牌推荐

Qianfan-OCR部署教程：Docker Compose编排+Redis缓存+异步任务队列增强版

武汉 12 大正规贷款机构推荐｜银行 + 助贷全覆盖，附本地放款数据 - 品牌企业推荐师（官方）

2026年金源环宇深度解析：从技术专利布局看其行业竞争力指南 - 品牌推荐

从传统机器学习到智能体AI系统的实践指南

收藏｜2026全面解析AI Agent开发技术路线图，从入门到实战全覆盖

价值对齐：“AI+Data”时代技术战略与组织进化的核心命题

STM32CubeMX+HAL库驱动SHT31温湿度传感器（附完整代码与CRC校验避坑指南）

FLUX.1-Krea-Extracted-LoRA快速试用：3个高转化率电商提示词模板分享

为什么推荐0.6温度？DeepSeek-R1-Distill-Qwen-1.5B输出稳定性测试

Redis 缓存一致性设计模式

如何快速掌握COBRA工具箱：基因组尺度代谢网络分析的完整指南

量子-经典混合计算框架：原理、挑战与应用