当前位置：首页 > news >正文

具身智能TL常用算法面经：数据训练、SFT 与 Sim-to-Real 闭环(三)

news 2026/5/7 9:58:45

1. 博客导读

这篇是整个系列里最像“真做过项目”的部分。面试官一旦问到数据，就不是看你会不会报名字，而是看你是否知道机器人数据的真实成本、标注方式、采集方式、清洗方式和闭环方式。

建议按下面顺序看：

先理解数据飞轮。
再看遥操作、SFT、Sim-to-Real 和 benchmark。
最后看长序列任务、人类视频、失败回流和在线自适应。

如果你做的是机器人项目，这篇比第二篇更重要。

1. Q1：具身智能最大瓶颈是数据不够，你怎么解决？

1.1 面试官问法

机器人数据不够怎么办？
没有几十万条 demo，VLA 怎么训练？
真实数据、仿真数据、开源数据怎么组合？

1.2 考察点

这是高频必问题。面试官想看你是否知道机器人数据贵、慢、异构、难对齐，以及你是否会做数据策略而不是只说“多采数据”。

1.3 30 秒回答

我会用多源数据组合解决：真实teleoperation data（遥操作数据）保证目标任务分布，仿真和合成数据覆盖长尾和危险场景，开源数据提供通用视觉/动作先验，人类视频提供语义和动作阶段信息。训练上先用大规模异构数据预训练，再用本机器人高质量数据SFT（监督微调），最后通过真机失败回流做定向补采。

1.4 2-3 分钟展开回答

真实机器人数据稀缺的原因有四个：采集慢、硬件成本高、失败有风险、不同机器人数据格式不统一。因此解决方案不能只靠扩大采集量，而要提高数据效率。

第一，任务内高质量遥操作数据是基本盘。它必须覆盖目标物位置、光照、背景、起始姿态、干扰物、不同速度和失败恢复。少量高质量、分布覆盖好的数据，往往比大量重复 demo 更有效。

第二，用仿真补长尾。仿真适合生成物体随机化、光照随机化、初始状态随机化和危险场景，但不能指望仿真完全替代真机。仿真数据更适合预训练、策略初始化和失败模式覆盖。

第三，用开源数据做通用先验。Open X-Embodiment、DROID、BridgeData、LeRobot 社区数据这类资源可以提升视觉语义和操作先验，但必须处理 embodiment、相机视角、动作空间和任务标注差异。

第四，人类视频可以提供语义和阶段信息，但不能直接当机器人动作监督。它更适合做affordance（可供性）、subgoal（子目标）、video pretraining（视频预训练）、reward learning（奖励学习）或动作阶段分解。

最终要形成闭环：先训练baseline（基线方法），上真机评测，统计失败模式，再针对性补数据。比如失败集中在“杯子靠边缘”或“透明杯”上，就不要随机采新数据，而要定向补这些场景。

1.5 常见追问

如果只能采 100 条 demo，你怎么最大化效果？
失败轨迹要不要保留？
开源数据和本机数据冲突怎么办？

1.6 高分追问回答

100 条demo（示教轨迹）时我会严格控制任务范围，保证覆盖关键状态，而不是平均分布乱采。每条 demo 要有完整时间同步、语言标注和成功标记。失败轨迹不一定丢，失败前的有效片段可以保留，失败动作可以用于训练critic（评价器/价值评估模型）、终止检测或安全分类器。开源数据和本机数据冲突时，本机动作 schema 优先；开源数据可用于视觉/语言预训练或低权重混合。

1.7 进一步补充

如果面试官继续追“数据不够怎么办”，可以把方案分成三层：短期做更高质量的遥操作和清洗；中期加仿真和开源数据补长尾；长期建失败回流闭环，让系统自己告诉你下一轮应该采什么。这个回答比“多采数据”更可信。

2. Q2：遥操作数据采集系统怎么搭？数据质量和量怎么平衡？

2.1 面试官问法

你们数采系统怎么设计？
遥操作噪声怎么处理？
数据采集时记录哪些字段？

2.2 考察点

这是判断你是否真接触过机器人数据的关键题。回答要具体到时间戳、频率、同步、状态、动作和元信息。

2.3 30 秒回答

遥操作系统至少要记录多视角图像、机器人状态、动作命令、语言任务、时间戳、episode id（轨迹编号）、成功标记和异常信息。核心是保证时间同步和动作语义一致。质量上优先覆盖任务分布和关键失败模式，采完后做轨迹可视化、动作范围检查、延迟检查、成功率统计，再决定是否继续扩量。

2.4 2-3 分钟展开回答

一个靠谱的数采系统要关注三层，面试时要突出数据字段、同步机制和质量验收标准。

第一是硬件和控制。常见遥操作方式包括主从机械臂、VR 手柄、3D mouse、键盘/手柄、示教拖动和人形数据服。选择取决于任务精度和成本。精细 manipulation 更适合主从或示教；移动操作可以用手柄和高层 skill。

第二是数据记录。每个episode（一次完整任务轨迹）需要保存：

多相机 RGB/RGB-D、相机内外参、帧时间戳。
机器人joint state（关节状态）、EEF pose（末端执行器位姿）、gripper state（夹爪状态）、力/触觉如果有也保存。
控制命令，包括 action、控制模式、频率、限幅结果。
语言指令、任务 id、物体信息、场景随机化参数。
成功/失败、失败原因、人工备注。

第三是质量控制。要检查时间戳是否对齐、相机是否掉帧、动作是否超范围、demo 是否过慢或抖动、成功标准是否一致。不要只看采集条数，要看状态覆盖率和失败模式覆盖率。

2.5 常见追问

遥操作数据很抖，训练会不会学到抖动？
如何处理不同操作者风格？
subtask 时间段怎么标注？

2.6 高分追问回答

2.6.1 遥操作抖动与噪声处理：在丝滑与迟滞间寻找平衡

遥操作（Teleoperation）数据，特别是基于人类视觉反馈、低成本主手（Leader）或 VR 控制器的采集，由于人类手部微震、传感器噪声、通信延迟等原因，动作信号往往非常抖动（Noisy and Jittery）。

核心风险：如果模型全盘接收这些数据，它会学习这些高频抖动动作作为“专家策略”，导致执行时电机不必要的发热、损耗，严重时甚至导致控制系统失稳。

以下是针对抖动的全链路工程设计：

采集端源头管理：限速与死区（Limits & Deadbands）

物理层死区（Deadbands）：人类手部有自然的微小震动。在软件层面设置一个极小的阈值。当主手运动幅度小于此阈值时，将其视为“无动作”，不发送给机器人。这能过滤掉纯粹的噪声。
动作限速（Velocity Limits）：在遥操作软件中对机器人的速度和加速度设置软上限。即使操作者猛烈挥手，机器人也会以预设的平滑曲线执行动作，从源头保证采集到的 Joint States 是平滑的。

后处理平滑：时域滤波（Smoothing）

低通滤波（Low-pass Filtering / Moving Average）：对采集到的轨迹应用指数平滑（Exponential Smoothing）或移动平均滤波。这种方法简单高效，能去除高频噪声。
核心权衡（The Contact Dilemma）：过度滤波是致命的。滤波会引入相位滞后（Latency）。在需要高频精细反馈的任务中（如插拔线缆、接触桌面的瞬间），如果滤波太重，模型可能学不到精确的“接触瞬间”信号，导致撞击或操作失败。工程上通常在不同阶段应用不同权重的滤波。

数据清洗：异常剔除与重采样

动作重采样（Resampling）：遥操作数据的采样频率可能不稳定（e.g., 20Hz-30Hz波动）。在写入 Episode 前，必须将其统一重采样至恒定的控制频率（e.g., 固定 20Hz），保证时序信息的一致性。
速度校验与剔除：自动计算动作序列的速度梯度。如果某两帧之间的 Joint Position 突变超过物理可能或预设阈值，则将该片段标记为异常数据并予以剔除，防止损坏策略学习。

模型层：时间平滑约束（Temporal Smoothness Loss）

损失函数优化：不仅让模型预测的动作与专家演示一致（MSE），还可以显式地加上一个针对相邻两帧预测动作差异的Consistency Loss（一致性损失）或Smoothness Loss。
作用：它惩罚模型预测的突变动作，迫使模型预测出一条随时间平滑演进的轨迹，从而在算法内部抑制抖动。

2.6.2 不同操作者风格：将多峰问题转化为可控生成问题

不同的人操作机器人完成同一个任务，其风格（Style）会有显著差异：有的操作果断迅速，有的则谨慎缓慢；有的喜欢大角度绕行，有的喜欢直线逼近。

核心挑战（多峰分布）：在同一个视觉场景下，数据里出现了两种不同的合理动作流。简单的回归模型（如 RT-1）会将这两种风格进行“平均化”，导致模型在执行时输出一个两边都不靠、物理上不可行的动作。

解决思路是从“全盘模仿”转向“条件化生成”：

1. 条件 CVAE 潜变量（CVAE Latent as Condition）

ACT 模型核心：ACT（Action Chunking with Transformers）模型巧妙地使用条件 VAE（CVAE）来解决此问题。
原理：在训练阶段，模型接收视觉特征的同时，也接收完整的专家动作轨迹（Expert Trajectory），并将该轨迹压缩进一个低维的潜空间（Latent Space）。这个潜空间中的每个位置z zz都编码了不同的专家风格或解法（e.g.,z = 1 z=1z=1代表速度快的操作风格）。
推理时：模型只需根据图像推理，并显式地提供一个z zz潜变量作为“风格指令”（例如设定z zz为训练集的均值，或手动采样一个z zz），让策略根据当前的视觉场景和指定的风格来生成一致的动作。

2. 质量评分与数据加权

工程做法：人工或自动（基于成功率、操作时间）对采集到的 Episodes 进行质量评分。在训练时，对于高质量（e.g., 丝滑、迅速）的 Episode 赋予更高的权重（Higher Sample Weight / Larger Gradient Step），引导模型更多地模仿优秀的操作风格，自然淘汰效率低的风格。

2.6.3 Subtask 时间段标注：状态驱动与规则结合

一个长程（Long-horizon）任务，如“抓取杯子并放到微波炉”，必须被拆解为多个原子子任务（Subtasks）来降低策略学习难度。手动标注每个子任务的起始帧和结束帧极其耗时且一致性差。

工程上通常采用关键状态事件（State Events）驱动的方法来进行自动化或半自动化标注：

定义物理状态边界

子任务的切换往往伴随着机器人或物体物理状态的剧烈改变。通过监测关键传感器和状态变量的“逻辑状态”（Boolean），可以确定边界候选：

原子操作名称	关键触发事件（Events）	时序边界确定
移动至物体 (Approach)	夹爪闭合逻辑：F -> T	结束点：夹爪逻辑跳变前一帧
抓取 (Grasp)	夹爪闭合逻辑&电机力矩突变	起始点： Approach 结束；结束点： Gripper State 稳定
抬起 (Lift)	物体高度信号(RGB-D 或 Pose) &EEF Z轴变化	结束点：物体高于桌面的逻辑标志置 T
放置至目标 (Transport)	EEF 到达目标区R t a r g e t R_{target}Rtarget	结束点： EEF Position∈ [ t a r g e t _ m i n , t a r g e t _ m a x ] \in [target\_min, target\_max]∈[target_min,target_max]
释放 (Release)	夹爪闭合逻辑：T -> F	结束点：夹爪完全打开

人工规则与启发式辅助

夹爪稳定判定：夹爪闭合命令发出后，电机需要约 0.5s 才能完全稳定接触。工程上通常在夹爪逻辑信号（Boolean）变真后，向后顺延预设的稳定时间（e.g., 10帧），作为抓取原子动作的真正结束点。
速度梯度检测：在 Transport 任务中，机器人快要到达目标点时，通常会有明显的减速动作。通过监测 EEF 的线性速度梯度，可以找到任务快完成时的“减速窗”，辅助确定更精确的任务分界。

2.7 进一步补充

采集系统最容易犯的错通常不是“数据少”，而是时间戳没对齐、动作定义和控制频率不统一、成功/失败标准不一致。这三个问题会直接污染训练信号，后面再换模型也救不回来。

3. Q3：预训练、SFT、任务微调在 VLA 中分别是什么？

3.1 面试官问法

你们 SFT 调多大模型？数据量多少？
VLA 预训练用什么数据？
什么时候只 fine-tune action head，什么时候全量训练？

3.2 考察点

面试官想看你是否能把大模型训练范式迁移到机器人，但又不照搬 LLM 术语。

3.3 30 秒回答

VLA 预训练通常用大规模、多任务、多机器人数据学通用视觉语言动作先验；SFT 用目标机器人和目标任务的高质量演示对齐具体action schema（动作格式/动作规范）；任务微调则针对某个场景或技能做最后适配。数据少时优先冻结视觉/语言backbone（主干网络），只训adapter（适配器）或action head（动作头）；数据足够且分布差异大时再考虑更大范围微调。

3.4 2-3 分钟展开回答

预训练解决“通用性”。它可以用 Open X-Embodiment、DROID、BridgeData、LeRobot 社区数据、仿真数据等，目标是让模型学到物体、动作、语言和跨任务先验。但这些数据通常异构严重，所以要统一观察格式、动作单位、频率、归一化和语言模板。

SFT 解决“本机可用”。即使用了通用 VLA，迁移到自己的机械臂也需要用本机数据微调，因为相机位置、夹爪、动作维度、控制模式和任务分布都不同。

任务微调解决“具体成功率”。比如让模型专门学某条产线、某类杯子或某个家庭桌面环境。这里更重质量和覆盖，不一定需要非常大数据。

微调策略取决于数据量：

少量数据：冻结大部分backbone（主干网络），训练action head（动作头）、LoRA（低秩适配）、adapter（适配器）。
中等数据：解冻视觉投影层、action head 和部分融合层。
大量多任务数据：可以全量微调或继续预训练。

面试中不要随口报模型参数和数据量。如果没有真实数字，可以说“我会按参数量、任务复杂度和过拟合情况做 scaling，而不是固定比例”。

3.5 进一步补充

如果被追问“什么时候只训 action head，什么时候全量微调”，可以这样答：数据很少、只换机器人硬件时，先冻结 backbone；数据中等、场景变化大时，解冻视觉和融合层；数据足够且任务分布差异很大时，再考虑更大范围微调。这样比直接说“看情况”更像真做过项目。

4. Q4：Sim-to-Real 会遇到哪些坑？怎么解决？

4.1 面试官问法

你做过 Sim-to-Real 吗？最大坑是什么？
Domain randomization 怎么设计？
如何结合系统辨识设计更高效的 DR 分布？

4.2 考察点

这是机器人基础能力题。回答要覆盖视觉域差异、动力学差异、接触、延迟和控制接口。

4.3 30 秒回答

Sim-to-Real（仿真到真机迁移）的主要gap（差距）包括视觉外观、相机标定、动力学参数、接触摩擦、执行器延迟和控制器差异。解决上先做System Identification / SysID（系统辨识），把质量、摩擦、阻尼、延迟、控制增益等参数估到合理范围，再做Domain Randomization / DR（域随机化）覆盖不确定性；同时用少量真机数据做residual adaptation（残差适配）或policy fine-tune（策略微调）。

4.4 2-3 分钟展开回答

Sim-to-Real 失败通常不是一个原因，而是多个 gap 叠加。

视觉 gap 包括光照、材质、反射、纹理、相机噪声、镜头畸变。解决方式是视觉随机化、真实图像增强、synthetic-to-real style transfer（合成到真实的风格迁移）、预训练视觉encoder（编码器）和多视角冗余。

动力学 gap 包括质量、惯量、关节摩擦、阻尼、夹爪力、执行器延迟。解决方式是系统辨识和参数随机化。系统辨识可以先在真机执行标准动作，拟合延迟、摩擦和控制响应，再把随机化范围设在真实可信区间内。

接触 gap 最难。抓取、插入、滑动、柔性物体都对摩擦和微小几何误差敏感。这里不能只靠随机化，通常需要真机微调、力/触觉反馈、低层阻抗控制和更保守的安全策略。

如果算力有限，我会优先随机化三个参数：视觉外观/光照、物体初始位姿、执行延迟或摩擦。具体选哪三个取决于失败模式。如果真机主要抖动，优先查延迟和控制增益；如果抓不准，优先查相机标定和物体位姿分布。

4.5 常见追问

如何快速定位抖动源于观测延迟、动力学失配还是策略本身？
Domain randomization 是不是越大越好？
在线自适应怎么做才不破坏稳定性？

4.6 高分追问回答

定位抖动要做ablation（消融实验）：固定观测replay（回放）看policy 输出是否抖；把 policy 输出换成平滑轨迹看机器人是否抖；人为加延迟看抖动是否复现；检查控制器tracking error（跟踪误差）和动作频谱。DR 不是越大越好，过宽会让训练变难、策略保守。在线自适应应限制权责，比如只估计小维度残差、延迟或增益，不直接改主策略输出，并加安全边界和回滚机制。

5. Q5：人类操作视频能不能拿来训练 VLA？

5.1 面试官问法

人手视频能不能训练机器人？
2D 视频到 3D 机器人动作怎么对齐？
Being-H0 这类方向解决什么问题？

5.2 考察点

这是前沿数据题。面试官看你是否知道人类视频有价值，但不能直接替代机器人动作标签。

5.3 30 秒回答

人类视频可以用，但通常不能直接作为低层动作监督。它更适合提供物体affordance（可供性）、任务阶段、目标状态、语言语义和subgoal（子目标）。要变成机器人训练数据，需要解决人手到机器人夹爪的embodiment gap（具身形态差异）、2D 到 3D 位姿恢复、相机尺度、接触状态和动作可执行性。

5.4 2-3 分钟展开回答

人类视频的价值在于规模大、任务自然、物体多样。比如网络视频里有大量“打开抽屉”“倒水”“擦桌子”的示例，能教模型理解任务阶段和物体功能。

但难点也很大。首先，人手和机器人夹爪结构不同。人可以用五指灵巧操作，二指夹爪未必能复现。其次，视频通常没有精确 3D 位姿、力、机器人状态和控制命令。再次，视频视角、尺度和遮挡都不稳定。

可行用法包括：

训练视觉表征和 affordance：哪里可抓、哪里可推、哪里可打开。
学 subgoal：先接近杯子，再抓取，再移动到目标区域。
学reward（奖励信号）或success classifier（成功判别器）：判断任务是否完成。
用 pose estimation 或 hand-object reconstruction 生成粗动作，再通过机器人约束过滤。

面试里要强调：人类视频更适合作为高层语义和阶段监督，低层控制仍需要机器人数据校准。

5.5 进一步补充

如果面试官问“人类视频是不是完全不能用”，不要回答得太绝对。更稳的说法是：能用，但用途更偏高层语义、阶段划分和 affordance 学习；真正的低层动作还得靠机器人数据对齐。

6. Q6：常见开源数据集和 benchmark 怎么选？

6.1 面试官问法

VLA 常用 benchmark 有哪些？
Open X-Embodiment、DROID、LIBERO、ManiSkill 各适合什么？
你怎么做 baseline 对比？

6.2 考察点

这是实验设计题。回答要把数据集用途说清楚，而不是罗列名字。

6.3 30 秒回答

Open X-Embodiment/RT-X 适合跨机器人、多任务预训练；DROID 适合真实世界多场景操作数据；BridgeData 适合真实桌面操作和语言条件数据；LIBERO 适合语言条件、长序列和 lifelong learning 仿真评测；Meta-World/ManiSkill 适合仿真多任务和 RL/IL 对比；RoboCasa 更偏家居长任务仿真。

6.4 2-3 分钟展开回答

如果目标是通用 VLA 预训练，优先考虑 Open X-Embodiment、DROID、BridgeData 和 LeRobot 社区数据，因为它们包含真实机器人操作和多任务分布。

如果目标是算法消融，LIBERO、Meta-World、ManiSkill 更适合，因为可复现、任务多、成本低。LIBERO 对语言和长时序比较友好；Meta-World 适合多任务 manipulation；ManiSkill 适合仿真控制、RL 和大规模并行。

如果目标是家居场景和任务组合，RoboCasa 这类 benchmark 更贴近家庭操作，但仍然要注意 sim-to-real gap。

baseline 选择要与问题匹配。如果改action model（动作模型），就对比 BC、ACT、Diffusion Policy、RDT/VLA；如果改数据策略，就固定模型比较数据混合、标注和采样；如果改部署，就比较延迟、成功率和吞吐。

7. Q7：长序列任务为什么成功率低？数据上怎么处理？

7.1 面试官问法

长 horizon 任务为什么难？
subtask 怎么标注？
数据里怎么处理失败和恢复？

7.2 考察点

这是数据和模型交叉题。高分回答要讲误差累积、状态分布偏移和子任务结构。

7.3 30 秒回答

长序列任务难在误差累积、状态分布偏移、语言目标漂移和数据稀疏。数据上我会把任务拆成subtask（子任务），标注开始/结束事件和成功条件；训练上用action chunk（动作块）、hierarchical policy（分层策略）、subgoal prediction（子目标预测）、失败恢复数据和DAgger（Dataset Aggregation，数据聚合式模仿学习）/ 失败回流减少分布偏移。

7.4 2-3 分钟展开回答

长任务失败率低有几个原因。

第一，horizon 越长，单步小误差越容易累积。抓取偏一点，后面放置就全错。

第二，训练数据覆盖不了执行中的所有偏离状态。模仿学习只看专家轨迹，一旦机器人偏出专家分布，就不知道如何恢复。

第三，语言目标可能太抽象，比如“整理桌子”包含多个隐式步骤，端到端策略很难一次学完。

数据处理上，我会做 subtask 标注。边界可以来自事件：接近目标、夹爪闭合、物体离桌、到达容器、释放、任务验证。每个 subtask 可以单独训练 skill，也可以作为高层规划标签。

失败数据不要简单丢弃。失败前的正常段可以用于训练，失败状态可以用于安全/终止检测，人工恢复轨迹可以用于recovery policy（恢复策略）。真机部署后最有价值的是失败回流，因为它覆盖了模型真实会遇到的分布偏移。

7.5 进一步补充

长序列任务的关键不是“多训练一点”，而是要把它拆成可以学习和恢复的单元。面试里可以主动提subtask boundary（子任务边界）、recovery policy、failure replay（失败回放）和 hierarchical policy。这几个词能说明你理解了长horizon（时域长度）任务的根本难点。

8. Q8：如果要采集“叠衣服/整理衣物”数据，数采方案怎么设计？

8.1 面试官问法

如果让你从 0 到 1 采集叠衣服数据，你会怎么设计？
叠衣服属于柔性物体操作，它和抓杯子、插积木有什么不同？
单臂能不能做？为什么很多方案会用双臂？
布料没有刚体位姿，成功标准怎么定义？

8.2 考察点

这类问题考察的是你是否理解deformable object manipulation（可变形物体操作）。衣服、毛巾、布料不是刚体，状态维度高、遮挡多、接触复杂、摩擦不稳定、同一个目标状态可以有很多合理路径。面试官不是想听“多采数据”，而是想听你能否把任务拆成可采、可标、可训、可验收的工程闭环。

8.3 30 秒回答

叠衣服数据不能按普通 pick-and-place（抓取放置）来采。我会先把任务拆成“摊平、找角点、抓取、拉展、第一次折叠、第二次折叠、整理边缘、验收”这些subtask（子任务），再用双臂遥操作采集多视角 RGB/腕部相机、机器人状态、动作、夹爪状态、语言指令、成功标记和失败原因。评价上不用单一成功率，而是结合阶段得分、最终折叠质量、边缘对齐误差、是否有严重褶皱、完成时间和恢复能力。

8.4 2-3 分钟展开回答

叠衣服的核心难点是：衣服没有稳定的 6D pose（六自由度位姿）。杯子可以估计位置和朝向，但 T 恤会卷曲、遮挡、折叠、滑动，局部状态变化会影响后续动作。因此我会按“任务定义、硬件配置、数据字段、标注体系、验收标准、失败回流”来设计。

第一，先定义任务层级。不要一上来就采“把任意乱衣服叠好”。可以分三档：

Level 1（一级任务）：衣服已经摊平，只需要按固定步骤折叠。
Level 2（二级任务）：衣服轻微凌乱，需要先拉平再折叠。
Level 3（三级任务）：衣服随机团在桌面上，需要展开、识别正反面、整理方向、再折叠。

这个分级很重要，因为如果一开始把所有难度混在一起，模型会同时学展开、找角、抓取、折叠和整理，监督信号会非常稀疏。Hugging Face LeRobot 的公开衣物折叠案例也采用了类似从 laid-out shirt 到 messy shirt 的分层思路，并强调先固定评估协议再迭代数据。

第二，硬件上优先用双臂。叠衣服天然需要一只手固定、一只手拉展，或者两只手同时抓住两个角点。单臂也能做，但通常要借助桌边、夹具、固定板或预定义primitive（动作原语），任务范围会受限。双臂的优点是动作更接近人类示教，缺点是动作维度更高、同步更难、数据质量更依赖操作者。

第三，相机布局要服务于布料状态观察。一个可落地配置是：

base camera（基座相机/全局相机）：俯视或斜俯视桌面，负责看全局衣服形状。
wrist camera（腕部相机）：装在左右夹爪附近，负责看抓点、边缘、滑移和接触细节。
可选 RGB-D 或深度相机：用于估计布料高度、褶皱和遮挡，但要注意深度对黑色/反光/薄布料可能不稳定。

第四，数据字段要比普通抓取更细。除了图像、joint state、EEF pose、action、gripper state、timestamp，还建议记录：

cloth keypoints（布料关键点）：衣领、袖口、下摆角点、左右肩点等，哪怕只做少量标注也有助于分析。
segmentation mask（分割掩码）：衣服区域、桌面区域、夹爪区域，用于评估遮挡和最终形状。
subtask label（子任务标签）：摊平、抓左袖、抓右袖、向内折、向下折、整理边缘等。
failure reason（失败原因）：抓空、抓错角点、布料滑脱、折线偏移、夹爪压住布料、双臂互相干涉。

第五，成功标准要可执行。**只用“人工看起来叠好了”不够，因为训练迭代时无法稳定比较。**可以组合几个指标：

success rate（成功率）：最终是否达到可接受折叠状态。
stage score（阶段得分）：每完成一个 fold/subtask 给分，避免只有 0/1 信号。
template matching（模板匹配）：最终衣服轮廓和目标模板的 IoU 或关键点距离。
edge alignment（边缘对齐）：衣服左右边缘、袖口、下摆的对齐误差。
wrinkle score（褶皱评分）：可用人工 1-5 分，也可用图像纹理/深度粗略估计。
completion time（完成时间）：只对成功 rollout 统计，避免模型为了快而牺牲质量。

第六，数据采集策略要先统一动作风格。叠衣服是典型multi-modal（多模态/多解法）任务，同一个 T 恤可以先折左边，也可以先折右边，可以抓袖口，也可以抓肩点。**如果数据量不够大，混合太多操作流派会让行为克隆学到“平均动作”，表现为犹豫、抖动、抓点不稳定。**所以实战里通常先约定一个主策略，再逐步增加衣服颜色、材质、尺寸、背景和初始姿态多样性。

8.5 常见追问

失败轨迹要不要保留？
采衣服折叠数据时怎么避免模型学到操作者的犹豫？
公开衣物折叠数据能不能直接拿来微调自己的机械臂？

8.6 高分追问回答

失败轨迹不应该一刀切删除。失败前的有效动作、失败状态和人工恢复段都很有价值。比如抓错角点之前的接近动作可以保留，抓错之后的失败状态可以训练failure detector（失败检测器），人工把衣服重新拉平的片段可以训练recovery policy（恢复策略）。

操作者犹豫可以通过三层处理：采集前统一策略并让操作者练习，采集后用episode viewer（轨迹查看器）清洗停顿过多或动作反复的 episode，训练时对高质量片段加权。LeRobot 衣物折叠案例里也强调“先质量、再速度”，并用过滤和 reward model 对数据做筛选。

公开衣物折叠数据不能直接当万能数据。要先检查 robot embodiment（机器人形态）、action dimension（动作维度）、camera view（相机视角）、fps、坐标系、夹爪定义、任务语言和 license（许可协议）。如果自己的机器人和公开数据差异大，公开数据更适合做视觉/阶段/动作先验，本机最后仍要用目标机器人数据 SFT。

9. Q9：如果想用智元 AgiBot World、LeRobot、Open X-Embodiment、DROID 这类公开数据，怎么落到自己的 VLA 项目？

9.1 面试官问法

智元 AgiBot World 这类数据集怎么用到你自己的机器人项目？
Open X-Embodiment、DROID、LeRobot 数据能不能直接混到本机数据里训练？
外部数据和自己机器人动作空间不一致怎么办？
公开数据集很大，怎么判断哪些数据值得用？

9.2 考察点

这类问题考察的是你能不能把“会报数据集名字”升级为“会做数据落地”。公开数据真正落地时，最容易出问题的是data schema（数据格式规范）、coordinate frame（坐标系）、动作单位、控制频率、相机视角、语言模板、成功标注和许可协议。

9.3 30 秒回答

**公开数据不能盲目混训，必须先做数据审计和 schema 对齐。**我会先查license（许可协议）、机器人形态、相机配置、action schema、fps、坐标系、gripper convention（夹爪开合约定）、语言标注和成功标签。训练上通常采用“公开大数据预训练/表征学习 + 本机高质量 SFT + 真机失败回流”，而不是直接把外部动作当成自己机器人的低层监督。