当前位置：首页 > news >正文

GRANT模型：3D任务调度与空间定位的融合技术

news 2026/6/19 2:02:52

1. GRANT模型：3D任务调度与空间定位的融合创新

在智能机器人领域，如何让机器像人类一样高效完成复杂环境中的多任务操作一直是个难题。想象一下，当你准备一顿家庭晚餐时，会自然地同时处理多个任务：把食物放进微波炉加热的同时清洗餐具，擦拭餐桌，最后再取出加热好的食物。这种看似简单的多任务并行处理能力，对机器而言却需要融合语言理解、空间定位和任务调度三大核心技术。

GRANT模型正是为解决这一挑战而生。它创新性地将运筹学中的任务调度原理与3D空间定位技术相结合，通过独特的调度令牌机制(STM)，在ORS3D-60K基准测试中实现了高达39%的效率提升。这种突破不仅让机器人能更"聪明"地规划任务顺序，还能准确理解并定位三维空间中的物体位置，为智能家居、仓储物流等需要多任务并行的场景提供了全新的技术解决方案。

2. 核心技术解析

2.1 多模态大语言模型的3D扩展

传统多模态大语言模型(MLLM)主要处理文本和2D图像信息，而GRANT模型将其扩展到了三维空间理解领域。这种扩展面临三个核心挑战：

空间表征难题：3D点云数据不像2D图像有规则的像素排列，需要特殊处理才能被语言模型理解。GRANT采用了一种称为"超级点"(Superpoint)的表示方法，将稠密的点云数据抽象为具有语义意义的空间区域。
跨模态对齐：模型需要建立语言描述与3D物体之间的精确对应关系。例如当听到"冰箱旁边靠近另一个橱柜的厨房柜子"时，能准确识别目标物体。实验数据显示，加入3D定位功能后，模型在物体识别准确率上提升了15.95%到34.74%。
计算效率平衡：3D数据处理通常计算量巨大。GRANT采用Vicuna-1B作为基础模型，在保持性能的同时控制计算成本。如表4(c)所示，当模型参数从1B增加到7B时，性能提升有限(语言理解指标METEOR从42.82提升到45.19)，但计算成本显著增加。

2.2 调度令牌机制(STM)的设计原理

STM是GRANT模型的核心创新，它解决了传统方法中任务调度与空间理解割裂的问题。其工作原理可分为三个关键步骤：

任务类型识别：模型首先分析每个子任务的性质，判断其是否可并行。如表4(a)所示，加入调度内容后，时间效率指标TE从21.03提升到47.04，而使用STM后进一步提升到72.99。
依赖关系建模：通过特殊的< SCH>标记，模型显式地表示任务间的先后关系。例如在家庭晚餐准备场景中，模型会先启动需要长时间运行的微波炉任务(30分钟)，然后利用这段时间并行处理其他短任务。
资源冲突解决：当多个任务需要同一空间区域或设备时，模型会基于运筹学算法进行优化调度。优化求解器的运行时间极短，即使处理50个子任务也仅需3.94毫秒(表4d)。

2.3 3D空间定位与语言描述的精确匹配

GRANT使用< GRU>标记将语言指令映射到3D场景中的具体物体，这一过程涉及：

空间关系解析：理解"高于"、"低于"、"11点钟方向"等空间描述。在测试中，模型对这类关系的识别准确率达到60.23%，远超基线方法的14.82%(表4b)。
物体属性匹配：结合颜色(白色微波炉)、材质(不锈钢水槽)等特征确认目标。实验显示，这种多属性验证使误报率降低了29%。
动态场景适应：当物体位置变化时，模型能基于空间关系描述重新定位。这得益于在ARKitScenes和ScanRefer等多样化3D数据集上的训练。

3. 系统架构与工作流程

3.1 GRANT模型的整体架构

GRANT采用三阶段处理流程，如图7所示：

语言理解模块：基于Vicuna-1B模型解析任务描述，识别子任务及其属性。例如将"准备家庭晚餐"分解为7个子任务，并标注每个任务的预计耗时和空间需求。
3D场景理解模块：通过点云处理网络提取场景的几何和语义特征，建立3D空间索引。该模块在ScanRefer数据集上预训练，能够处理高达90%的未知物体。
调度优化模块：将运筹学中的作业车间调度问题(JSSP)公式化为混合整数规划，使用高效的启发式算法求解。如表4d所示，即使处理50个子任务，求解时间也不超过4毫秒。

3.2 端到端任务处理示例

以一个具体的家庭晚餐准备任务为例(图7)，GRANT的工作流程如下：

任务分解：将复杂指令拆分为7个子任务，如"操作微波炉"(30分钟)、"清洗水槽"(9分钟)等。
依赖分析：识别出微波炉操作不需要持续关注(可并行)，而擦拭桌面等任务需要连续操作。
调度生成：产生最优顺序：先启动微波炉，然后并行处理其他短任务，最后完成需要持续关注的任务。这种调度将总时间从74分钟缩短到45分钟。
空间定位：对每个子任务，精确定位目标物体，如"冰箱旁边的橱柜"、"厨房柜台下方的水槽"等。
执行监控：在微波炉完成前返回检查，确保所有任务按时完成。

4. 性能评估与实验结果

4.1 ORS3D-60K基准测试结果

在包含60,000个复杂3D任务的ORS3D-60K数据集上，GRANT展现出全面优势：

综合性能：在4-7个子任务的测试中，GRANT的总体准确率达到53.49%，远超Grounded 3D LLM的43.03%和LEO的38.14%(表4b)。
调度效率：通过STM机制，时间效率(TE)指标达到72.99，比简单调度提升25.95%(表4a)。
难度扩展性：随着子任务数量增加，所有方法性能下降，但GRANT下降幅度最小(从60.23到48.70)，显示出更强的复杂任务处理能力。