YD/T 6770—2026《人工智能 关键基础技术 具身智能基准测试方法》
一、标准基础档案
发布单位:工业和信息化部(2026 年第 3 号公告批准)
发布日期:2026-02-13
实施日期:2026-06-01
属性:通信行业推荐性标准(YD/T),国内首份具身智能统一评测标准,项目代号 EAI Bench
牵头编制:中国信息通信研究院,联合 40 余家机器人、AI 企业共同制定
官网地址:工业和信息化标准信息服务平台
二、内容
范围
适用于人形机器人、双臂服务机器人、四足巡检机器人等全部具身智能系统,覆盖“感知 - 决策 - 执行”全链路性能评测;支持两类测试环境:计算机仿真虚拟场景、线下实景实训场地。
具身智能 embodied artificial intelligence
研究、开发、实现AI 算法 + 物理实体硬件融合,让机器能自主和真实物理世界互动、适应环境变化。
注释补充
“物理实体” 不只是人形机器人,覆盖所有带感知、执行能力的硬件: 人形机器人、机械臂服务机器人、无人车、无人机、巡检四足机器人、智能移动设备全都算。它不是只跑在电脑里的纯 AI 大模型,是有身体、能动手动脚、能感知真实世界的人工智能。
具身智能系统 embodied artificial intelligence system
一套完整闭环智能系统,完整链路: 感知环境 → 识别理解信息 → 自主做决策 → 执行动作 → 从过往操作经验里自我学习、适应新环境。
注释拆解系统两大核心模块
传感模块:摄像头、雷达、力传感器、麦克风等,接收图像、距离、声音、触觉等多类外界信息;
动作执行模块:电机、减速器、机械臂、行走底盘等,输出控制指令完成移动、抓取、开关门等动作。
通俗理解
一套完整可落地的机器人整机软硬件,是实现 “具身智能” 的载体。
具身智能系统通过传感器模块处理多模态输入,并通过动作模块输出控制指令,使得物理实体在物理世界中自主完成任务。
具身智能系统任务 embodied artificial intelligence system task
给定场景、限制条件后,系统把一个大目标自动拆成一连串分步动作,一步步执行,最终完成目标的完整流程。
举例
高层目标:把货架上纸箱搬到工作台 系统自动拆解任务:
导航至货架 → 2. 视觉定位纸箱 → 3. 机械臂抓取 → 4. 移动到工作台 → 5. 平稳放置 这一整套完整流程,就叫具身智能系统任务。
缩略语
(1)3D
全称 Three Dimensional,中文释义三维,在这份具身智能标准里,一般指代三维空间感知、三维建模、三维重建这类机器人视觉相关技术。
(2)lx 勒克斯
全称 lux,中文释义勒克斯,是光照度的国际标准单位,用来规定测试场景里的环境光照条件,保障不同厂商的测试环境参数统一、结果可横向对比。
(3)RGB
全称 Red Green Blue,中文释义红绿蓝,是工业视觉、机器人摄像头通用的色彩模式,用来规范视觉采集、图像识别环节的色彩参数标准。
三、具身智能基准测试框架
YD/T 6770—2026 具身智能基准测试标准的核心总框架,完整定义了一套标准化机器人评测流水线,分为四大模块,流程逻辑:
环境设置 → 测试任务库(输入) → 测试过程(核心执行) → 指标计算(输出评测结果)所有企业、实验室、政企采购评测人形 / 四足 / 双臂机器人,都必须遵循这套统一流程,保证不同厂商机器人性能可以公平横向对比。
1. 环境设置(测试前置准备,分两大场景)
测试前必须先搭建标准化环境,分为仿真虚拟、真实实景两类:
① 3D 交互式仿真测试环境(电脑虚拟场景,低成本初测)
包含三类基础素材:
3D 物体资产:箱子、工具、桌椅、障碍物等测试道具三维模型
本体仿真模型:被测机器人数字仿真模型
环境属性:光照 (lx 勒克斯)、空间尺寸、地面摩擦力、RGB 色彩参数等统一环境条件
② 真实场景部署验证评估(线下实体场地,最终落地实测)
覆盖五大主流商用落地赛道:工业制造、商业零售、应急安全、家庭服务、医疗健康
2. 测试任务库(统一标准化考题,作为测试输入)
相当于机器人的标准化试卷,统一所有被测机器人的考核内容:
构建方法:规定怎么设计导航、抓取、开门、分拣等标准任务;
泛化评估协议设置:规定如何测试机器人在陌生新场景的适应能力,防止机器人只在固定演示场景表现好。
3. 测试过程(框架核心,执行评测)
(1)测试对象
两类被测主体全覆盖:
算法模型:单纯具身智能大模型、感知决策算法
整机系统:装好算法、带机械结构的完整实体机器人
(2)四种标准化测试方法(可单独用,也可组合)
静态仿真测试:虚拟环境、无动态障碍物,基础能力摸底
动态仿真测试:虚拟环境加入移动行人、滑动障碍物,测动态避障
真实环境测试:线下实体场地实景跑任务,最贴近真实工作工况
组合式测试:仿真 + 实景交叉测试,综合验证虚实一致性
4. 指标计算
跑完测试后,统一计算 5 项硬性量化指标,作为机器人性能唯一评判标准:
任务成功率:给定任务能完整做完的次数占比(核心指标)
任务执行效率:完成单次任务平均耗时,衡量运行速度
人工干预率:机器人卡住、出错时需要人类介入协助的频率,数值越低自主能力越强
场景扰动衰减率:环境出现障碍物、光线变化后,任务成功率下降幅度,数值越小鲁棒性越好
平均任务能耗:完成单次任务消耗电量,直接关系续航、运营成本
四、具身智能基准测试方法
1. 环境设置
3D 交互式仿真测试环境4条强制要求
(1)3D 物体资产要求
仿真平台必须能导入、自定义各类测试道具模型; 物体可修改的属性包含:RGB 颜色、表面纹理、长宽尺寸、物理材质(金属 / 塑料 / 布料等)。 作用:用来模拟不同外观、重量、摩擦力的工件,测试机器人视觉识别、抓取适配能力。
(2)本体仿真模型(机器人数字模型)
文件格式兼容:支持机器人行业通用的URDF、MJCF(MuJoCo)两种主流模型文件;
精度硬性规定:必须使用机器人原厂官方模型文件,仿真模型的外形尺寸、重量、关节力矩、摩擦、动力学参数,必须和实体真机完全一致。 核心意义:避免 “仿真里性能很好,真机落地翻车” 的虚实不一致问题。
(3)环境可调功能
仿真工具必须具备三类编辑能力:
模拟光照强弱、明暗切换(对应标准里光照单位 lx 勒克斯);
自由切换、调整摄像头视角(模拟机器人机载 RGB 相机视角);
自由摆放、移动场景内物体,搭建不同测试任务布局。
(4)仿真还原标准
3D 仿真场景必须做到真实世界 1:1 等比例复刻,空间尺寸、物体距离、障碍物位置和实景完全对应,保证仿真测试数据具备参考价值。
2. 测试任务库
任务库必须包含「原子技能→基础任务→长线程任务」三级,逐层验证机器人能力上限
构建方法:
1)原子技能(最基础单项动作)
定义:机器人最小、不可拆分的单一基础动作;
考核目的:单独验证机械、感知底层动作稳不稳定;
举例(附录 A.1 标准示例):前进、转向、抓取、松开、视觉识别单个物体、避障、升降机械臂等;
作用:先筛底层硬件 / 基础感知有没有故障。
2)基础任务(多个原子技能简单组合)
规则:由多个原子技能拼接,场景里目标物体不超过 2 种;
举例:识别纸箱(原子识别)+ 抓取纸箱(原子抓取),全程只涉及「纸箱」1 种物体;开门(原子识别门把手 + 原子旋转抓取),仅门把手 1 个对象;
特点:短流程、低复杂度,测简单组合动作。
3)长线程任务(多段基础任务串联,贴近真实工作)
规则:2 个及以上基础任务拼接,完整模拟真实工作流程;
举例:导航到货架(基础任务 1)→抓取货物(基础任务 2)→导航到工作台(基础任务 3)→放置货物(基础任务 4);
作用:模拟工厂、商超完整作业流程,测机器人连续自主工作能力。
泛化能力的标准化测试方法
核心目的:给机器人制造各类环境干扰、任务变量,测试它在【非完美演示环境】下能不能稳定完成任务,避免厂商只在固定样板场景刷高分。
a)感知能力(只测视觉 / 传感识别,不涉及决策、动作)
(1)测试任务:视觉理解类任务
标准规定的干扰变量(模拟真实环境变化)
光照强弱(lx 勒克斯)、物体纹理、物体颜色、动态移动物体干扰、相机倾斜偏移、物体被遮挡、场景混入无关杂物。
(2)通俗举例
原本识别白色纸箱;换成昏暗灯光、纸箱贴花纹贴纸、一半被塑料桶挡住、旁边来回走过人,看机器人还能不能精准识别目标箱子。
b)决策(推理)能力(只测逻辑判断、语义理解,不涉及抓取移动动作)
(1)测试任务:语义交互类任务
干扰变量
依靠颜色 / 重量 / 尺寸 / 材质区分物体、模糊口语指令、常识逻辑判断。
(2)原文示例
模糊指令:“拿一个水果放到盘子上”(无指定苹果 / 香蕉,机器人自行区分水果类物体)
多选项模糊需求:“从冰箱拿一罐能量饮料,可乐、苹果汁、红牛任选” 重点考核:机器人听懂模糊人类指令、自主区分物体属性做选择的逻辑推理能力。
c)行动能力(只测机械执行、运动适配,不涉及识别与思考)
(1)测试任务:动作执行类任务
干扰变量(改变物体 / 场地物理属性)
物体轻重变化、地面摩擦力、物品易碎程度、地面温度、斜坡凹凸等。
(2)通俗举例
抓取 1kg 纸箱稳定;换成 5kg 重物、光滑油面地面、易碎玻璃杯,测试机械臂力度、行走平衡会不会失控。
d)感知决策(认知)能力:视觉识别 + 逻辑推理联动
(1)测试任务:视觉语言类任务
核心规则(备注):仅改变物体外观,不会要求变更动作
(2)举例
指令 “拿起红色水杯”,水杯换成红色马克杯、红色塑料杯,外观变,但任务动作都是 “抓取水杯”。 考核:不管目标长什么样,只要语义匹配,机器人都能识别并执行同一套动作。
e)感知行动能力:视觉识别 + 机械动作联动
(1)测试任务:视觉动作类任务
核心规则(备注):物体视觉外观一变,对应的抓取 / 移动动作就要同步调整
(2)举例
抓取长方体盒子用侧夹;换成球形皮球,视觉识别后自动切换环抱抓取姿态。 考核:视觉感知到物体形态变化,能实时调整机械执行动作。
f)决策行动能力:语言指令推理 + 机械动作联动
(1)测试任务:语言动作类任务
核心规则(备注):不同语言指令,对应完全不同的空间动作流程
(2)举例
指令 1:“把杯子放到桌上”;指令 2:“把杯子放进抽屉” 两条指令语义不同,机器人规划的移动、放置动作完全不一样,考核听懂语言并匹配对应行动。
g)感知决策行动一体化能力(全链路终极考核)
(1)测试任务:视觉语言动作类任务
覆盖全部链路:视觉识别物体 → 理解模糊语言指令 → 自主规划全套抓取 / 移动动作
干扰:物体外观、尺寸、位置、环境光线全部随机变化
(2)通俗完整例子
场景里混杂苹果、矿泉水、纸巾,语音模糊指令 “拿一个解渴的东西放到托盘”; 光线昏暗、苹果被遮挡、瓶子大小不一,机器人要自主识别、推理、抓取、转运整套流程无人工干预。
3. 测试过程
测试对象具体包括:
(1)模型:包括模块化和端到端等不同的算法模型实现方式
(2)已部署模型的整机系统:本体形态包括不限于人形、轮臂式、四足、自主移动机器人(AMR)等。
测试方式:
可采用静态仿真、动态仿真测试和真实环境测试三种方式,具体如下:
指标计算
附录A
原子技能是具身智能不可进一步分解的最小单元,可组合用于构建复杂动作。通过构建原子技能库,可以检验具身智能的基础行动能力。
