机器人学习数据层成本高?各环节问题大揭秘!
机器人学习的数据层成本现状
规模定律在机器人领域发挥作用,催生出几年前难以想象的能力。端到端模型简化了机器人软件,但让数据收集到训练的工作变难。大语言模型(LLM)团队借助成熟数据基础设施提升性能,机器人团队却在缺乏此类设施的情况下试图扩张规模。
大多数团队从头构建数据工具,因为现有基础设施不适合驱动机器人学习的多速率、多模态数据。从数据收集到训练,常见操作难度和耗时超出应有水平,这种在迭代速度、工程聚焦度和 GPU 利用率方面累积的成本,被称为“数据层成本”。降低这一成本是在竞争中加速发展和实现规模扩张的关键。
从架构上看,数据层负责数据的存储、建模和访问。物理人工智能(Physical AI)的数据层不成熟,成本在整个流程各阶段都明显。若从事机器人学习开发或投资,本文将揭示成本来源,从评估回溯到收集,展示需求如何向上游传导,以及为何成本随数据规模、数据源多样性和数据策划复杂度增加而累积。
策略评估难题
全面的“评估”体系是 LLM 团队快速进步的核心,但对机器人行为评估困难,产生连锁反应。机器人团队对训练好的策略进行小规模实际评估,需花费数小时甚至数天进行机器人试验,还要精心设计和操作,依据全面、可重复且快速的评估实现快速进步不可行。
团队只能依赖代理指标,如奖励模型、3D 重建质量或轨迹平滑度估计,但这些指标只能表明单个片段或样本好坏,无法说明能否产生更优策略。
因实际评估运行难度大,深入研究评估很重要。许多重要决策来自研究人员,他们观察评估过程,凭直觉决定下一步行动。
从数据基础设施角度,评估与数据收集相似,需记录模型输入、输出、目标及元数据。研究人员审查运行结果,按指标汇总,深入研究特定记录。
将运行追溯到训练数据,需在互不关联的工具和格式间手动排查,阻碍导致迭代时间变长,无法将洞察反馈到训练更优策略中。
模型训练挑战
训练期间的样本构建
机器人行为学习与其他机器学习任务有共同基础,但模型随时间输出动作,增加了数据层复杂度,主要体现在样本构建和视频压缩方面。
训练大型模型时,要快速为 GPU 提供数据以实现最大利用率。研究人员通过选择数据和采样方式引导模型行为,常将多个数据集组合,使用加权组合,甚至为每个时间步设置采样概率或损失权重。
以训练视觉 - 语言 - 动作模型(VLA)为例,人形机器人模型处理多个视频流、关节位置和速度、抓取器状态及语言指令。数据集中每个批次训练样本从片段的单个时间步开始,基本 VLA 模型样本包括摄像头帧、机器人状态和未来动作,所有输入需时间对齐,易出现细微错误。
简单按行获取数据会下载许多不用的项,高效数据加载器需“列感知”,避免不必要的数据传输导致 GPU 闲置。采样模式取决于模型架构且不断演变,复杂采样模式增加细微错误风险,降低模型性能。
训练期间的视频解码
视频占总数据集大小 90% 以上,编码为视频可利用时间冗余节省存储空间,但增加了复杂性。
大多数视频编解码器通过“图像组”(GOP)结构利用时间冗余,GOP 以关键帧开始,后续为增量帧,实现压缩。模型需要完整图像帧,解码增量帧需从最近关键帧开始,解码其间所有帧,随机访问单个帧平均需解码多帧。
关键权衡在于 GOP 大小,大 GOP 压缩好,小 GOP 随机访问快。LeRobot 默认使用 2 的 GOP,优先考虑随机访问但牺牲压缩率。
具有非均匀历史的策略涉及多个摄像头,每个样本需解码多帧,非均匀间隔意味着帧可能在不同 GOP 中,数据获取逻辑需处理视频。
数据加载器的复杂性导致迭代速度变慢
构建快速且正确的数据加载器困难,大型数据集更难。很少有团队接受低 GPU 利用率,会放弃灵活性,引入缓慢的数据导出任务,影响研究人员试验超参数和选择训练数据的能力,使数据集策划和模型改进更困难。
数据集策划要点
数据质量
快速提供数据给 GPU 重要,数据质量也关键。数据集策划确保数据分布合适,优化模型性能。HuggingFace 的机器人折叠项目发现,精心挑选片段可大幅提高成功率,算法改进效果相对较小。但系统改进数据组成不易,验证改进效果过程缓慢。
真实数据存在传感器数据流缺失、模式不匹配和记录间隙等问题,轨迹分析可筛选数据,但机器人数据分散时分析困难。
大多数团队进行可视化审查,学习模型提供更强大分析方法,如奖励模型和估计轨迹贡献的方法,但运行成本高,旨在比人工审查更具扩展性。
提高数据质量最有效方法之一是改进数据收集过程,研究人员可通过审查数据发现问题,改进数据收集设置比下游筛选方法更有效。
数据集混合
数据集组成对模型性能影响大,包括选择数据集、权衡任务 - 机器人组合和强调或弱化方面。Physical Intelligence 的 pi0 在多种数据混合上预训练,每个任务 - 机器人组合加权。2024 年 CoRL 最佳论文表明,增加任务多样性比增加演示更重要,数据集组合方式可能比数据量更关键。
模拟数据生成成本低,易在训练组合中占主导,但模拟与现实有差距,确定合适比例需实验。
训练指标可提供数据集组合有效性信号,但数据加载器缺乏灵活性,每次新组合需离线过滤、合并、导出和指向新副本,增加迭代难度,阻碍系统实验。
理想情况下,数据集混合应通过查询表达,训练数据加载器应能直接提供样本,尝试新变体只需更改参数。
借助注释和后处理进行增强
基本远程操作数据在记录和训练间处理相对简单,团队添加任务注释,计算时间对齐的状态和动作列,进行质量检查。但运行更强大的策划方法需大量计算生成派生数据并集成到数据集中。
端到端模型简化感知堆栈,但需要大量训练数据,迫使团队寻找更便宜、更具扩展性的数据源。像 Sunday Robotics 和 Generalist AI 等公司使用人类数据收集员生成演示,将这些数据转化为可训练数据需复杂处理,复杂性从机器人推理转移到数据管道中。
来自头戴式摄像头的纯第一人称视角视频需要更多处理,Meta 的 HOT3D 数据集提供相关数据。团队还使用 3D 重建增强现有数据集,如特斯拉使用专有技术生成合成变体。
所有处理需读取源数据、计算派生信号并写回结果,端到端学习移除的复杂性在数据管道中重新出现,若数据层无法处理多速率、多模态数据,管理和调试管道的复杂性将增加。
记录、摄取和规范化问题
每个机器人和数据收集设置不同,团队会构建定制解决方案。远程操作与特定机器人紧密耦合,云推理或实时强化学习记录架构不同,数据可能不触及机器人本地存储,构建这些系统决定了下游可用数据。
挑战始于数据摄取,需将数据规范化为可处理形式。即使在单个团队内,数据模式也会随时间变化,不同时间收集的数据结构不同,但都需在训练中协同工作。
大规模上,团队将多个机器人配置的数据组合,如 Open X - Embodiment 需要多个自定义数据集转换构建器,转换大型数据集可能需要数天。
将数据转换为通用可查询形式是下游步骤的基础,脆弱的管道在跨栈调试时令人头疼,团队需要数据处理框架和通用格式,避免引入新数据破坏现有数据。
有先例的权衡
在分析领域,团队为不同用户维护独立系统,数据湖存储数据但缺乏结构,数据仓库提供快速查询但有严格模式,团队需进行 ETL 操作并导出数据,创建多个副本。湖仓一体架构解决了这一问题,一份数据可被多种用户访问。
机器人数据基础设施面临类似权衡,基于文件的日志格式适合记录和回放,但不适合大规模查询和训练;早期规范化数据可快速训练,但更改成本高;按主题表的方法允许后期规范化,但组合系统时复杂性增加,团队最终维护同一数据的多个表示形式并建立转换管道。
物理人工智能数据每个阶段都需要可视化检查,若数据层不支持可视化,会成为新的有格式要求和转换管道的用户。
每种方法解决部分问题,但也产生阻碍,随着团队扩大数据集规模、增加数据源多样性和提高数据策划复杂度,阻碍会累积。
数据层成本影响
不成熟的数据层明显成本是工程时间,但真正成本是无法开展的工作。如尝试新数据集组合速度慢,一些策划方法无法大规模应用,转换错误在训练时未被发现,评估失败追溯数据收集问题时间长,在错误基础上研究困难。
在机器人学习中,通过闭环操作构建模型,获胜团队将更快、更精确地运行闭环,不会在高成本的数据层上工作。
Rerun 花数年构建解决这些问题的组件,即将展示成果。若在本文中看到熟悉问题,可了解更多。
更多文章推荐
机器人学习的新数据层:随着 0.32 SDK 版本发布,Rerun 成为物理数据统一数据层,涵盖多速率、多模态机器人数据的可视化、查询、转换和训练,本文介绍其架构、新功能及商业数据目录和存储引擎 Rerun Hub。
Rerun 0.27 - 灵活的变换、Python 服务器管理和改进的时间控制:Rerun 0.27 包括实验性的坐标框架层次结构、用于服务器管理的 Python API、3D 视图的蓝图控制和时间面板改进。
Rerun 0.26 - ROS2 反射、变换性能等:Rerun 0.26 带来重大性能改进、基于反射的 ROS2 MCAP 支持、实验性镜头以及在查看器和 SDK 方面的持续优化。
相关信息
订阅发布说明,第一时间了解新功能。
产品:包括概述、Rerun SDK、Rerun Hub、定价、更新日志、Web 查看器。
资源:有文档、快速入门、示例、API 参考、博客。
社区:涉及 GitHub、Discord、X / Twitter、LinkedIn、YouTube。
公司:有职业机会、团队、媒体资料包、联系我们、隐私政策。
投资方:包括 Costanoa Ventures、Point Nine、Seedcamp、Sunflower。
