当前位置: 首页 > news >正文

【第四十一周】VLN

目录

  • 前言
  • 内容

前言

这周主要细看《PLANNING WITH AN EMBODIED LEARNABLE MEMORY》,以下简称EPM,EPM这篇论文主要是一个可学习记忆,直接输出文本化的环境表示(物体列表、坐标、描述),大语言模型可以直接读懂这个记忆,无需中间查询,VLM能够对记忆进行ADD、UPDATE、Remove、No update 四个操作,我的想法主要是让EPM作为一个高层的规划器,通过用户输入的自然语言指令(比如去客厅沙发旁边的茶几上拿遥控器),EPM可解析指令中的目标物体和空间约束,生成子任务序列(先导航到客厅,在到沙发,再到茶几,最后寻找遥控器),然后将EPM的文本查询转换为CUS能理解的特征向量,在CUS地图中检索坐标,最后执行导航动作,并更新EPM的内部记忆。

内容

EPM 直接生成描述实体及实体间关系的文本,可与大语言模型规划器无缝集成

短时序规划,可通过将当前场景转换为目标图像或利用可微场景表征实现;但长时序上下文特征规划,最常用方法是借助预训练大语言模型:通过大语言模型生成查询、余弦相似度匹配位置,而EPM采用的是后一种思路,直接将模型生成的描述文本输入大语言模型上下文

EPM的定义动作a=(verb,args),verb为高层动词,args为实体ID列表。完整的动作空间如下:
1、Navigate(id):导航至实体 id 附近(距离 < 1.5m)
2、Open(id):打开可打开实体(柜门、抽屉)
3、Close(id):关闭可打开实体
4、Pick(id):抓取实体id(物体)
5、Place(id_target, id_receptacle):将 id_target 放置到 id_receptacle(家具 / 容器)
6、Explore():随机探索未知区域
7、Done():任务完成

动作失败的条件:
Navigate:目标不可达、被遮挡
Open/Close:实体不可打开、已开 / 关
Pick:物体太远、被遮挡、已被抓取
Place:容器已满、位置无效

系统架构采用的是双层控制架构,首先是感知层(EPM),感知层是输入RGB-D+位姿,输出一个更新状态进而维护环境状态,然后是高层规划器(LLM),输入一个任务指令和环境状态进而输出高层动作。最后是技能层,输入高层动作和原始观测输出低层控制

对于高层规划器的训练,EPM主要是用两种方式获取数据:一是将模拟环境中的人类操作演示数据转换为机器人兼容规划轨迹;二是采用全新在线强化学习方法,利用环境交互经验优化规划器

对于人类操作演示数据,在模拟环境中回放人类遥操作轨迹,同时实时运行感知模块,生成适配当前感知系统的规划轨迹,无需为不同感知系统单独采集演示数据;采用 LoRA(胡等人,2022)微调大语言模型,完成训练。

核心流程是:
1、推到探索目标:需探索那些家具?
2、采样探索动作:探索次数?
3、将物体信息注入EPM,移除无法推进任务的交互步骤并生成实例轨迹

关于EPM工作在哪个环境跑,根据论文,是仿真和真机两者都有,仿真平台是Habitat(Meta的具身智能仿真平台),数据集来源于PARTNR benchmark 和HSSD,一共12个验证场景,10w个训练集,1000个验证集

真机配置上,机器人选择的是Spot robot(Boston Dynamics的四足机器人),测试环境是室内公寓,约155平方米,数据集来源于Spot-indoor(30个交互序列,一共1100帧,每段序列中目标与干扰物体在不同容器间重新放置,半数序列中人类也会改变环境)

对于算力要求,原文中并没有明确给出算力要求,只能根据他们使用的模型做了推测,实际情况可能会有变化:
1、视觉语言模型,EPM用的是LLaVa-OneVision-7B,算力大概是16-24GB显存,该模型用LoRA微调
2、大语言模型用的是Llama3.3-70B(零样本)或者Llama3.1-8B(微调过后的),70B应该需要多张卡(约140B),8B约16B,他们对比了两种,8B微调后的模型,在功率上超过了70B的零样本模型,并且参数小了近九倍,这个其实告诉我们不需要盲目追求大模型,训练数据比模型规模更重要
3、训练用的是LoRA和DDAFT,单卡24GB,训练没有进行微调

http://www.jsqmd.com/news/884630/

相关文章:

  • 2026上海GEO生成式引擎优化服务商综合实力测评:谁在真正帮品牌进入AI答案
  • 基于WebSocket与ESP32的网页虚拟摇杆实现:低延迟物联网控制方案
  • OpenCV 4.9.0 尝鲜指南:新DNN模块、Transformer支持与ARM优化,一次讲透
  • AI算法工程师如何进行数据预处理?这5个步骤让你的数据更优质
  • 基于地理空间数据与机器学习的低成本校园停车预测框架实践
  • 内容创作团队利用 Taotoken 多模型能力优化文案生成流程
  • 3步解决Windows热键冲突的终极技术方案
  • 2000-2024年上市公司海外子公司存活率数据
  • 应急响应——威胁流量分析-WinFT详细溯源教程
  • 做烤鸭用什么成品料好?这家靠谱品牌让生意更省心 - 品牌2025
  • 珍宝黄金回收——呼和浩特十年老店的黄金变现之道,2026年5月实操全解读 - 润富黄金珠宝行
  • 2026年6年林芝采暖设备市场调研:TOP5地暖品牌综合实力与性价比对比报告 - 博客万
  • 激光ToF传感器原理与应用:从皮秒计时到嵌入式系统集成
  • 释放惠普暗影精灵全部潜能:OmenSuperHub终极指南 [特殊字符]
  • HC8333晨芯阳内置100V/5A MOS宽输入电压降压型DC-DC
  • 麒麟KYLINOS V10 SP1开机自动登录保姆级教程:用LightDM配置文件搞定(含安全提醒)
  • 你的PyTorch MNIST项目还在用CPU跑?保姆级教程教你用Google Colab免费GPU加速训练(附完整代码)
  • 2026广告咨询选哪家?这3条避坑指南别错过
  • Untrunc视频修复指南:当珍贵视频突然损坏时,如何用开源工具拯救你的数字回忆
  • 【IF-SAFE-02】功能安全入门:基础设施安全 - 电源/时钟/SCU的守护
  • 在国产化信创环境里,用yum downloadonly搞定银河麒麟V10 SP3 ARM64的Docker离线包(附避坑清单)
  • 【官方重磅】2026年6月百达翡丽全国售后维修保养网点大更新!45家授权服务中心新址公布,服务热线400-106-3365全面启用,立即收藏! - 资讯纵览
  • 儿童护眼台灯什么品牌最好?宝妈一致推荐儿童护眼灯品牌,放心买
  • Claude + Docker + NVIDIA Container Toolkit深度集成:单节点GPU利用率从38%提升至91.7%的7步调优法
  • AIGC率 -- 如何降的更自然
  • D2DX:让经典《暗黑破坏神2》在现代PC上完美运行的终极解决方案
  • 小白也能照着做!Claude Code Windows环境搭建+API中转配置完整指南(无需海外账户)
  • 2026年了,还在忍受百度网盘几十KB?聊聊Pandownload现在的提速方案
  • 海康摄像头CVE-2021-36260命令注入漏洞深度解析
  • 终极指南:使用Hotkey Detective彻底解决Windows热键冲突问题