当前位置：首页 > news >正文

机器人跨模态感知：用视觉替代触觉实现非抓取操作

news 2026/7/18 12:14:45

1. 项目概述：当机器人“看不见”接触时，如何让它“感觉”到？

在机器人移动操作领域，尤其是非抓取操作（比如推、拉、滑动物体），精确感知机器人与物体之间的接触状态至关重要。传统的解决方案依赖于安装在机器人本体上的接触传感器（如力/力矩传感器、触觉皮肤）。这类传感器能直接测量接触点的位置和力信息，但存在明显短板：成本高昂、安装复杂、易受机械冲击损坏，且感知范围通常局限于传感器安装的局部区域。

那么，能否让机器人用“眼睛”去“感觉”接触呢？这正是我们这项工作的核心出发点。想象一下，你戴着一副厚手套去推一个箱子，你无法直接通过指尖感受箱子的精确位置，但你的眼睛可以清晰地看到手套与箱子的接触区域。我们的研究就是为机器人赋予这种能力——利用机器人已经普遍装备的视觉传感器（如3D LiDAR或RGB-D相机）来替代或补充专用的接触传感器，实现跨模态的接触感知。

这项名为“基于跨模态学习的机器人非抓取操作传感器替代框架”的研究，其核心价值在于解耦感知能力与特定硬件。它不再要求机器人必须配备昂贵、脆弱的接触传感器才能执行精细的推送任务。相反，通过一套学习驱动的算法框架，机器人能够从LiDAR的点云数据或RGB-D相机的深度图像中，“理解”并推断出接触点的位置、类型（点接触、线接触）乃至接触是否发生。我们在仿真和真实机器人（一个移动操作平台）上的实验表明，这套框架在推送多种形状、重量、材质的物体时，成功率超过90%，与使用真实接触传感器的性能相当，甚至在特定指标上更优。

这不仅仅是省了一个传感器的钱。它意味着机器人系统的设计可以更灵活、更鲁棒。你可以根据任务环境和成本，自由选择LiDAR（适合大范围、高精度深度感知）或RGB-D相机（成本更低、提供丰富的颜色信息），而核心的接触感知与控制算法无需改变。对于仓储物流中的AGV搬运、家庭服务机器人的物品整理，或是灾难救援中机器人在复杂环境下的移动作业，这种硬件无关的感知能力都具有巨大的应用潜力。

2. 核心框架设计：如何教会机器人“看”出“触觉”？

整个传感器替代框架的核心思想，是建立一个从替代传感器（如LiDAR）数据到目标传感器（如接触传感器）输出之间的映射关系。这个映射不是简单的坐标转换，而是一个需要理解物体几何、机器人运动以及接触物理的复杂函数。我们采用了一种分而治之的系统化方法。

2.1 整体架构与数据流

我们的框架主要由两大模块构成：近距离向量提取器和接触感知模块。

数据流始于替代传感器。以3D LiDAR为例，它每秒产生数十万个三维点坐标，形成一个描述周围环境的点云。我们的第一步是从这片“点云海洋”中，快速定位出可能与机器人发生接触的物体表面区域。这通过计算近距离向量来实现。简单来说，我们以机器人本体上的一个虚拟参考面（例如，机器人的前保险杠平面）为基准，向空间发射一系列“探测线”。对于每一条线，我们在点云中搜索距离这条线最近的点，这个最近距离和方向就构成了一个近距离向量。这些向量形成了一个紧凑的描述符集合，它抽象地刻画了机器人周围物体表面的几何轮廓，是后续学习的关键输入。

接触感知模块是整个框架的大脑，它是一个基于长短期记忆网络的深度学习模型。LSTM非常适合处理我们这种具有时序特性的任务。因为机器人的推送是一个连续动态过程，当前的接触状态与过去几帧的传感器读数及机器人运动状态高度相关。LSTM网络接收当前时刻以及过去若干时刻的近距离向量描述符序列作为输入，其任务是同时预测三个关键输出：

接触标志：当前时刻机器人与物体是否发生接触？（二分类：是/否）
接触类型：接触是点接触、线接触还是面接触？（多分类）
接触位置：如果发生接触，接触点在机器人本体坐标系下的精确坐标（回归问题）。

这个模块在仿真环境中进行训练。我们利用高保真的物理仿真器（如Gazebo），让机器人在大量随机场景中推送各种物体，并同步记录LiDAR点云和仿真器提供的“地面真实”接触传感器数据。这样，我们就获得了海量的“（LiDAR数据，接触真值）”配对样本，用于监督学习训练CPM。

2.2 为什么选择LSTM与近距离向量？

这里有几个关键的设计考量，直接决定了框架的可行性与效率：

为什么是LSTM，而不是普通的前馈神经网络？推送过程中的接触是动态的、连续的。一个静止的点云帧可能无法区分物体是紧贴着机器人还是即将接触。LSTM的记忆单元能够保留历史信息，例如，它可以“记住”物体在上一帧正快速靠近，结合当前帧的微小距离变化，从而更准确地判断接触是否刚刚发生。这对于减少误报（将未接触判为接触）和漏报（已接触但未检测到）至关重要。

为什么用“近距离向量”而不是原始点云？原始点云数据量巨大且无序，直接输入网络会导致计算负担极重，且需要复杂的网络结构（如PointNet++）来处理。近距离向量是对点云的一种高度压缩和结构化的表达。它将三维空间的感知问题，降维到一系列沿机器人表面法线方向的标量距离测量上。这带来了三大好处：

输入维度固定：无论场景中有多少个点，我们只提取固定数量（例如S=64条）的近距离向量，确保了网络输入层大小恒定。
对噪声更鲁棒：LiDAR点云难免有噪点。通过取“最近点”并沿法线方向投影，能够在一定程度上过滤掉孤立的噪声点。
物理意义明确：每个向量的长度直接反映了机器人表面到物体表面的最短距离，这与接触感知的物理本质紧密相关。

仿真训练的现实可行性在真实世界中收集大量、多样化的机器人接触数据既昂贵又危险（可能损坏机器人或物体）。仿真环境提供了完美的沙盒：我们可以快速生成成千上万种不同的物体（不同形状、大小、摩擦系数）、机器人运动轨迹和目标位置，并零成本地获取精确的接触真值。虽然存在“仿真到现实”的差距，但我们的核心是学习一种跨模态的映射关系（点云模式->接触模式），只要仿真中的传感器模型（LiDAR噪声、分辨率）与真实传感器足够接近，学习到的映射关系就具有很强的可迁移性。

注意：训练数据的多样性是关键。我们必须在仿真中覆盖尽可能多的物体属性（刚性/可变形、轻/重、光滑/粗糙）和接触场景（正面碰撞、侧面刮擦、滑动接触），这样训练出的CPM才能具备良好的泛化能力，应对真实世界的复杂性。

3. 从LiDAR到接触感知：核心算法实现拆解

理解了框架设计，我们深入到具体算法层面，看看如何一步步将LiDAR的“看见”转化为接触的“感觉”。

3.1 近距离向量提取：在点云中勾勒接触边界

假设机器人本体坐标系为 Σ_R，其前表面（推送面）位于 y=0 平面（这里假设机器人在XZ平面内移动，Y轴指向前方）。我们在该表面上定义一系列均匀分布的源点P_start_s(s=0,1,...,S-1)��对于每个源点，我们关心的是沿着其法线方向（即+Y方向）上，最近的物体表面在哪里。

算法步骤如下：

坐标变换：将LiDAR采集到的所有点云{p_i}从LiDAR坐标系 Σ_L 转换到机器人本体坐标系 Σ_R，得到{r_i^R}。
区域过滤：只保留位于机器人前方感兴趣区域内的点，例如y_min < r_i,y^R < y_max且|r_i,x^R| < x_max。这大大减少了需要处理的数据量。
投影与分组：对于每个源点P_start_s，其坐标为(x_s, 0, z_s)。我们不是直接搜索整个空间，而是采用一种高效的“分桶”策略。沿Y轴方向将感兴趣区域划分成S个薄片（bin），每个薄片对应一个源点。具体来说，对于点r_i^R，如果其Y坐标满足b_s ≤ r_i,y^R < b_{s+1}，其中b_s = y_min + s * g_y（g_y是薄片厚度），则该点被分配到第s个组G_s中。
计算向量端点：对于每个非空组G_s，我们寻找组内所有点中X坐标最小的那个点（假设机器人的中心在X=0处，这通常对应与机器人最可能发生接触的突出点）。该点的坐标(x_min, y, z)就被定义为第s个近距离向量的端点P_end_s。向量的起点固定为P_start_s。如果某个组G_s为空（即该方向上没有探测到物体），则我们将P_end_s的X分量设为一个很大的值（如ϵ_x_max），表示该方向“无障碍物”。
构建描述符：最终，我们得到一组向量{P_s = P_end_s - P_start_s}，其中每个向量的长度||P_s||就是机器人表面在s方向到物体的近似距离。这组标量距离{||P_s||}就是输入给CPM的紧凑描述符。

这个过程可以形象地理解为：在机器人面前竖起一排“测距仪”，每个测距仪只报告自己正前方最近物体的距离。这排读数共同描绘了物体相对于机器人表面的轮廓。

3.2 接触感知模块的输入与输出处理

CPM的输入是一个时序窗口[t-T, t]内的描述符序列，其中t是当前时刻。每个时间步的输入是一个S维的向量（S个距离值）。网络输出三个头：

接触标志头：一个Sigmoid激活函数的神经元，输出0到1之间的值，>0.5判定为接触。
接触类型头：一个Softmax激活函数的输出层，对应“无接触”、“点接触”、“线接触”三类（在我们的推送任务中，面接触较少出现，可归入线接触）。
接触位置头：通常输出两个值(l_x, l_y)，表示在机器人前表面（Y=0平面）上的接触点坐标。这里l_y恒为0，所以关键是预测l_x，即接触点在机器人宽度方向上的位置。

损失函数设计是训练成功的关键。我们采用多任务学习的加权损失：总损失 = w1 * 二元交叉熵(接触标志) + w2 * 分类交叉熵(接触类型) + w3 * 均方误差(接触位置)权重w1, w2, w3需要根据任务重要性进行调整。例如，接触标志的准确性最高，因为它是后续控制决策的基础（是否接触），因此w1可以设得较大。

3.3 与反应式推送策略的集成

预测出的接触信息(l_x, l_y)并不是最终目的，它要被用于机器人的运动控制。我们采用了之前研究中提出的反应式推送策略。该策略的核心思想是：将接触点l视为一个虚拟的“控制点”，机器人通过调整自身的朝向，使得这个控制点指向目标位置。

具体控制律可以简化为：机器人的角速度ω与接触点位置l_x和目标方向的误差成正比。当l_x为正（接触点在机器人中心右侧），机器人需要向左转，以将接触点“甩”向目标方向。RPS是一种非常鲁棒的方法，它不依赖于物体的精确模型（质量、摩擦系数未知），只根据当前的接触感知进行实时反应。

我们的框架完美地融入了这个控制回路。在每一个控制周期（例如10ms）：

LiDAR获取新一帧点云。
提取近距离向量描述符。
CPM根据当前及历史描述符，预测出接触点估计值\hat{l}。
将\hat{l}输入RPS控制器，计算得到机器人的线速度和角速度指令。
机器人执行该指令，推动物体。

整个流程形成了一个“感知-预测-控制”的闭环，实现了仅凭LiDAR视觉感知就能完成依赖接触反馈的复杂推送任务。

4. 拓展到RGB-D相机：当点云变得稀疏与嘈杂

LiDAR提供了高质量、高分辨率的3D点云，但成本相对较高。为了证明框架的通用性，我们将其拓展到更常见、更廉价的RGB-D相机上。RGB-D相机（如Intel RealSense）能同时提供彩色图像和深度图像，但其深度信息通常比LiDAR噪声更大、点云更稀疏，特别是在远距离或弱纹理区域。

4.1 从深度图像到近距离向量的转换

我们不能直接套用LiDAR那套基于原始点云的处理流程。我们的解决方案是结合语义分割和图像边缘检测。

对象分割与跟踪：首先，我们需要在RGB图像中识别出要推送的物体。我们采用了SAM2这样的零样本分割模型。在任务开始时，操作者只需在图像上点击一下目标物体，SAM2就能生成该物体的精确掩码。更重要的是，SAM2具备记忆机制，可以在后续的视频流中持续跟踪这个被分割的物体，即使它移动到了图像边缘。
边缘提取与3D重建：获得每一帧的物体掩码后，我们将其应用于对应的深度图像，只保留物体区域的深度值。接着，使用Canny边缘检测算法找出物体掩码的轮廓，得到一组图像像素坐标(u_i, v_i)。利用相机的内参(f_x, f_y, c_x, c_y)和该像素点的深度值z_i，我们可以将这些2D边缘像素反投影到3D相机坐标系中：r_i,x^C = z_i * (u_i - c_x) / f_xr_i,y^C = z_i * (v_i - c_y) / f_yr_i,z^C = z_i这样，我们就得到了物体轮廓在3D空间中的点集E^C。
坐标转换与向量提取：将点集E^C从相机坐标系转换到机器人本体坐标系Σ_R，得到E^R。随后的处理流程就与LiDAR版本一致了：过滤、投影到机器人前表面、按Y轴分桶、在每个桶内找X坐标最小的点作为向量端点。

这个流程巧妙地将RGB-D数据适配到了我们的框架中。语义分割确保了我们只关注目标物体，排除了背景干扰；边缘检测则将物体的3D表示压缩为其轮廓线，这既降低了数据量，又抓住了与接触最相关的几何特征（物体的外缘）。

4.2 无需重新训练：框架泛化能力的验证

最令人惊喜的是，当我们从LiDAR切换到RGB-D相机时，之前训练好的CPM模型可以直接使用，无需任何重新训练或微调。这正是我们框架设计精妙之处的体现。

原因在于，CPM学习的是从“近距离向量描述符”到“接触状态”的映射。无论这个描述符是来自LiDAR的密集点云，还是来自RGB-D相机的物体轮廓点云，只要它们都是以相同的方式计算出来的（即，都代表了机器人表面到物体表面的最短距离集合），那么对于CPM来说，其输入数据的语义和分布就是一致的。模型并不关心这些距离值最初是来自哪种传感器，它只关心这些距离模式与接触状态之间的关联。

在仿真实验中，使用RGB-D相机替代LiDAR，我们的框架在推送任务中仍取得了86.11%的成功率。虽然接触类型分类的准确率有所下降（从~95%降至~52%），但这主要是因为RGB-D数据更噪声，导致轮廓点云不如LiDAR点云稳定。然而，RPS策略对接触类型并不敏感，它主要依赖接触点位置l_x。而接��点位置的预测RMSE仅为0.0879厘米，接触标志的判断准确率高达92.79%，这足以保证推送任务的成功执行。

实操心得：RGB-D应用的注意事项
光照与材质：RGB-D相机（特别是结构光或主动立体类型）对光照敏感，在强光或黑暗环境下性能下降。对于透明、镜面或纯黑物体，深度信息可能完全丢失。在实际部署前，必须在目标工作环境下进行充分测试。
分割可靠性：依赖SAM2等模型进行实时分割与跟踪。要确保物体在初始帧能被清晰分割，且在整个推送过程中不被严重遮挡。对于快速运动或形变大的物体，跟踪可能失败。
计算开销：RGB-D流程涉及图像分割和边缘检测，计算量比直接处理LiDAR点云大。需要选择性能足够的嵌入式计算单元（如NVIDIA Jetson系列），并可能需要对分割模型进行轻量化。

5. 实验结果深度剖析：数据说明了什么？

无论是仿真还是实物实验，我们都设置了严格的对比来验证框架的有效性。核心实验场景是：一个移动机器人将不同物体推送到环绕其周围的多个目标位置。

5.1 性能指标与对比分析

我们主要关注以下几个指标：

推送成功率：物体最终静止位置与目标位置的距离小于阈值（例如10厘米）即视为成功。
接触点估计误差：预测的接触点\hat{l}与仿真提供的真实接触点l之间的绝对距离|\bar{l}|。
归一化旋转角度ΔΘ_norm：机器人在整个推送过程中自身旋转角度的积分，归一化到路径长度。这个指标反映了推送过程的平滑性和效率。过度的旋转会导致物体滑动甚至失控。

与真实接触传感器的对比：实验设置了对照组：一组使用真实的接触传感器数据l驱动RPS；另一组使用LiDAR+CPM预测的数据\hat{l}驱动RPS。结果如图4所示（虽然你看不到图，但可以理解数据）：

接触点估计：预测的接触点\hat{l}在统计上显著比真实接触传感器测得的l更靠近机器人中心。这不是误差，而是一个有趣的系统性偏差。我们分析认为，接触传感器测量的是实际受力点，而LiDAR感知的是物体的几何外缘。在推送时，物体可能与机器人表面发生线接触，传感器测到的是力分布的中心，而LiDAR“看到”的是最突出的边缘点，后者通常更靠近中心。
对运动的影响：正是由于\hat{l}更靠近中心，使用CPM预测时，机器人的ΔΘ_norm显著减小。这意味着机器人需要进行的“扭动”调整更少，推送路径更直、更高效。
成功率的提升：更小的旋转直接带来了更高的推送成功率。这有效缓解了所谓的“平坦保险杠问题”——当机器人具有平坦的推动面时，过度的旋转会导致被推物体向侧面滑动，偏离目标方向。我们的方法通过提供更靠近中心的接触点估计，自然地抑制了这种有害的旋转。

5.2 实物实验与鲁棒性验证

我们在真实的移动操作平台上进行了测试，使用了三种差异巨大的物体：

一个重达25公斤的刚性纸箱。
一个3公斤的轻质L形纸箱。
一个0.8公斤的可变形泡沫圆柱。

机器人平台分别配备了3D LiDAR和RGB-D相机。实验目标点设置在机器人周围不同方位和距离上。实物实验的结果令人鼓舞：

总体成功率高达91.67%，证明了从仿真到现实的成功迁移。
使用RGB-D相机替代LiDAR，成功率保持不变，验证了框架的传感器无关性。
即使在最具挑战性的案例中（如将一个内部有滚球、质量分布动态变化的盒子推向目标，同时盒子还受到外部扰动），系统依然能够成功完成任务。

对失败案例的分析显示，平均的接触点到目标点距离仅为0.31±0.12米，意味着失败往往只是以很小的差距错过目标，而非完全失控。这说明了系统具有很高的鲁棒性。

6. 潜在挑战、局限性与未来方向

尽管框架表现优异，但在实际工程化应用中，仍需面对并思考以下挑战：

1. 对极端物体属性的泛化能力当前实验涵盖了刚性、可变形、轻、重等属性，但对于一些更“棘手”的物体，性能可能下降：

透明或高反光物体：如玻璃、抛光金属。这类物体会导致LiDAR激光束穿透或散射，使RGB-D相机无法获取有效深度。解决方案之一是考虑引入超声波传感器作为替代模态。超声波对表面材质不敏感，但分辨率低、视野窄。未来工作可以探索如何将超声波数据也融入我们的跨模态描述符中。
非刚性或流动物体：如袋子装的颗粒、绳索。其形状在操作中剧烈变化，当前基于固定几何轮廓的近距离向量提取方法可能失效。可能需要引入更高级的动态形状表征或直接基于图像特征进行学习。

2. 环境复杂度与实时性

密集杂乱环境：当环境中存在多个紧密相邻的物体时，分割和最近点检测可能出错，误将非目标物体判断为接触对象。需要更强的场景理解与多物体跟踪能力。
实时性保证：整个流程（点云/图像获取、处理、网络推理、控制计算）必须在机器人的控制周期内（通常10-100ms）完成。使用SAM2等大型分割模型在嵌入式设备上的实时运行是一大挑战。模型轻量化、算法加速（如使用TensorRT）是必要的工程优化。

3. 接触力信息的缺失当前框架只预测了接触的几何信息（位置、类型），但没有预测力学信息（接触力的大小和方向）。对于需要力控的精细操作（如插拔、装配），这是不够的。一个未来的方向是扩展CPM，使其也能输出接触力的估计，但这需要仿真或真实数据中带有力传感器真值，数据获取难度更大。

4. 从“替代”到“增强”目前框架定位是“替代”缺失的接触传感器。但更理想的场景是“多模态感知融合”。当机器人同时具备接触传感器和视觉传感器时，我们的框架可以作为一个强大的冗余和互补系统。例如，在接触传感器被遮挡或失效时，视觉模态立即接管；在视觉受限（如强光致盲）时，依赖触觉。两者还可以相互校正，提升感知的整体置信度。

从实验室走向应用，我的体会是，这套框架最大的优势在于其模块化和灵活性。感知模块（近距离向量提取）、学习模块（CPM）、控制模块（RPS）相对解耦。你可以更换不同的前端感知算法（如更先进的物体分割器），可以尝试不同的网络架构（如Transformer），也可以接入不同的底层控制器。它提供了一个清晰的范式，告诉我们如何利用丰富的视觉先验知识来弥补机器人触觉感知的硬件短板。在成本敏感、可靠性要求高的机器人应用场景中，这种思路具有很大的吸引力。下一步，我计划在更复杂的动态环境中测试它，并尝试将其扩展到抓取、旋转等其他非抓取操作任务中。

查看全文

http://www.jsqmd.com/news/875435/