当前位置：首页 > news >正文

麻省理工研发复杂视觉任务AI规划新方法，成功率提升至70%

news 2026/7/6 17:21:05

麻省理工学院的研究人员开发出一种基于生成式AI驱动的新方法，用于规划复杂的长期视觉任务，如机器人导航，其效果比现有技术提高了约一倍。

该方法使用专门的视觉语言模型来感知图像中的场景，并模拟达成目标所需的动作。然后，第二个模型将这些模拟转换为标准的规划问题编程语言，并改进解决方案。

最终，该系统会自动生成一系列文件，这些文件可以输入到经典的规划软件中，由软件计算出实现目标的计划。这个两步系统生成的计划平均成功率约为70%，超越了最佳基准方法的30%成功率。

重要的是，该系统能够解决之前从未遇到过的新问题，这使其非常适合条件随时可能发生变化的真实环境。

麻省理工学院航空航天系研究生、该技术开放获取论文的第一作者郝依伦表示："我们的框架结合了视觉语言模型的优势，如理解图像的能力，以及正式求解器强大的规划能力。它可以接收单张图像，通过模拟处理，然后生成可靠的长期规划，这在许多现实应用中都很有用。"

参与这项研究的还有麻省理工学院信息与决策系统实验室研究生陈永超、航空航天系副教授兼信息与决策系统实验室首席研究员范楚楚，以及麻省理工学院-IBM沃森人工智能实验室研究科学家张杨。该论文将在学习表征国际会议上发表。

应对视觉任务挑战

在过去几年中，范楚楚和她的同事们一直在研究使用生成式AI模型进行复杂推理和规划，通常采用大语言模型来处理文本输入。

许多现实世界的规划问题，如机器人装配和自动驾驶，都有视觉输入，而大语言模型无法很好地独立处理这些输入。研究人员试图通过利用视觉语言模型这一能够处理图像和文本的强大AI系统来扩展到视觉领域。

但是，视觉语言模型难以理解场景中物体之间的空间关系，往往无法在多个步骤中正确推理。这使得将视觉语言模型用于长程规划变得困难。

另一方面，科学家们已经开发出稳健的正式规划器，能够为复杂情况生成有效的长期规划。但是，这些软件系统无法处理视觉输入，并且需要专家知识将问题编码为求解器能够理解的语言。

范楚楚和她的团队构建了一个自动规划系统，融合了两种方法的优势。该系统被称为视觉语言模型引导的正式规划系统，利用两个专门的视觉语言模型协同工作，将视觉规划问题转换为正式规划软件的即用文件。

研究人员首先仔细训练了一个名为SimVLM的小型模型，专门用自然语言描述图像中的场景，并模拟该场景中的动作序列。然后，一个更大的模型GenVLM使用SimVLM的描述，生成一组采用规划域定义语言这一正式规划语言的初始文件。

这些文件可以直接输入到经典的规划域定义语言求解器中，由求解器计算出解决任务的逐步计划。GenVLM将求解器的结果与模拟器的结果进行比较，并迭代改进规划域定义语言文件。

郝依伦说："生成器和模拟器协同工作，能够达到完全相同的结果，即实现目标的动作模拟。"

由于GenVLM是一个大型生成式AI模型，它在训练过程中见过许多规划域定义语言的例子，并学会了这种正式语言如何解决各种问题。这种现有知识使模型能够生成准确的规划域定义语言文件。

灵活的方法

视觉语言模型引导的正式规划系统生成两个独立的规划域定义语言文件。第一个是域文件，定义环境、有效动作和域规则。它还生成一个问题文件，定义特定问题的初始状态和目标。

郝依伦解释说："规划域定义语言的一个优势是，域文件对于该环境中的所有实例都是相同的。这使我们的框架在同一域下的未见实例中具有良好的泛化能力。"

为了使系统有效泛化，研究人员需要为SimVLM精心设计足够的训练数据，使模型学会理解问题和目标，而不是记住场景中的模式。在测试中，SimVLM成功描述场景、模拟动作并检测是否达到目标的成功率约为85%。

总体而言，视觉语言模型引导的正式规划框架在六个2D规划任务上达到了约60%的成功率，在两个3D任务（包括多机器人协作和机器人装配）上达到了超过80%的成功率。它还为超过50%的未见过的场景生成了有效计划，远超基准方法。

范楚楚补充说："我们的框架可以在不同情况下规则发生变化时进行泛化。这为我们的系统提供了解决多种基于视觉的规划问题的灵活性。"

未来，研究人员希望让视觉语言模型引导的正式规划系统能够处理更复杂的场景，并探索识别和缓解视觉语言模型幻觉的方法。

范楚楚说："长远来看，生成式AI模型可能会作为智能体，利用正确的工具解决更加复杂的问题。但是，拥有正确的工具意味着什么，我们如何整合这些工具？还有很长的路要走，但通过将基于视觉的规划纳入其中，这项工作是拼图的重要组成部分。"

这项工作部分得到了麻省理工学院-IBM沃森人工智能实验室的资助。

Q&A

Q1：视觉语言模型引导的正式规划系统是什么？它能解决什么问题？

A：视觉语言模型引导的正式规划系统是MIT开发的AI驱动规划方法，专门用于解决复杂的长期视觉任务，如机器人导航。该系统使用两个专门的视觉语言模型协同工作，将视觉规划问题转换为正式规划软件可用的文件，平均成功率约为70%，是现有方法的两倍多。

Q2：这个系统相比传统方法有什么优势？

A：该系统结合了视觉语言模型理解图像的优势和正式求解器强大的规划能力。与传统方法相比，它能够处理视觉输入，解决之前从未遇到过的新问题，并且在不同规则变化的情况下具有良好的泛化能力，成功率从30%提升至70%。

Q3：视觉语言模型引导的正式规划系统如何工作？

A：系统采用两步工作流程：首先，SimVLM模型用自然语言描述图像场景并模拟动作序列；然后，GenVLM模型根据描述生成规划域定义语言文件，这些文件可以输入到经典规划软件中计算出实现目标的逐步计划。两个模型协同工作，迭代改进解决方案。

查看全文

http://www.jsqmd.com/news/466156/

2026必备！AI论文网站千笔 VS 灵感风暴AI，本科生写作神器！

螺钉/螺丝等五金件的自动化排列与研磨抛光：前置整列的技术价值

一个5V电源 1个12V电源提供不同电压给电路板 2个电源共地是5V的负极跟 12V的负极接在一起接gnd吗？

深入浅出LC滤波器：从原理设计到实战

在内容审核、网络安全、AI对话监管等领域，敏感词和敏感对话的差异

老王-快乐到死的5个顶级思维

2026年武汉房屋检测公司权威排名与选购指南 - 2026年企业推荐榜

OSPF考题

2026别错过！AI论文网站千笔AI VS 灵感ai，研究生写作神器！

真人实录：做完筋膜提升多久恢复、做完筋膜提升注意事项~

老王-来时一丝不挂

2026 AI产业全景解析：国内外模型争霸，内容生产迎来智能革命

AI智能体威力巨大，厂商正在开发工具修复它们对基础设施的破坏

谷歌编程之夏 2026：如何为时序数据库 Apache IoTDB 撰写优秀提案？

阿里、字节面试必问：MySQL 索引失效的 8 种场景，这次彻底搞懂！

如何让你的龙虾更智能

【高清视频】介绍一个自动化测试辅助小工具 - 上下电测试适用于电脑冷启动的掉电盒

新中地GIS开发特训营2505期正式结业|一份超全GIS开发学习内容清单请查收

openclaw配置免费千问模型

spring cloud eureka打包教程

机器人设计与应用综合实训——ESP32开发技术分享3.11

第19届CISCN_pwn_typo 小白初探

自建docker镜像仓库

一文搞懂 Spring 事务传播机制

批量删除不连续固定行内容（含特定值）

在Linux Mint上使用Qemu和Burp Suite进行Android模拟与流量拦截

相关文章：