当前位置：首页 > news >正文

机器人触觉替代：用LSTM实现视觉点云到触觉信号的跨模态映射

news 2026/5/24 7:01:31

1. 项目概述：当机器人“看不见”触觉时，如何让它“感觉”到物体？

在机器人操作领域，让机器人灵巧地与环境交互，尤其是执行“推”、“滑”、“拨”这类非抓取操作，一直是个核心挑战。这类操作不像抓取那样有明确的握持点，它更像是在与一个动态、不确定的系统共舞，需要实时感知接触状态来调整动作。传统上，高精度的触觉传感器（比如覆盖在机器人表面的电容式触觉皮肤）是获取这种接触信息的黄金标准。它能告诉你：“物体碰到了我，碰在左边，接触面大概是一条线。”

但现实很骨感。给每一台机器人，尤其是那些在仓库、工厂或户外执行任务的移动操作臂，都装上这样一套昂贵、精密且可能易损的触觉皮肤，既不经济，也不总是可行。更常见的情况是：你手头有一台只配备了激光雷达（LiDAR）或RGB-D相机的机器人，而最擅长某个推动任务的算法，却是基于另一台装有触觉皮肤的机器人开发的。这时，算法就“瞎”了——它需要的触觉输入，你的硬件给不了。

这就引出了我们这次要深入探讨的核心问题：传感器替代。简单说，就是让机器人学会“用眼睛去感觉”。我们不是简单地把视觉数据喂给触觉算法，而是训练一个深度学习模型，让它能够理解激光雷达扫描到的点云（视觉/几何信息）与机器人身体感受到的接触（触觉信息）之间的内在映射关系。一旦这个模型训练好，一台只有“眼睛”（LiDAR）的机器人，就能实时“脑补”出它“皮肤”应该感受到的触觉信号，从而调用那些原本依赖触觉的、成熟高效的控制策略。

本文拆解的这个项目，正是这一思路的精彩实践。它提出并验证了一套基于长短期记忆网络的框架，成功地将触觉感知“替代”为视觉感知，让移动机器人在没有触觉皮肤的情况下，依然能稳定、精准地完成复杂的非抓取推动任务。下面，我们就从设计思路到代码细节，一步步拆解这个让机器人获得“第六感”的系统。

2. 核心思路与框架设计：从“触觉依赖”到“视觉脑补”

整个项目的目标非常明确：在缺失触觉传感器的硬件平台上，复现基于触觉反馈的非抓取操作性能。这听起来像是一个“感官代偿”的过程，其技术路径的选择至关重要。

2.1 为什么是“替代”而非“融合”？

首先需要厘清一个概念：传感器替代与传感器融合有本质区别。

传感器融合：是让多种传感器（如视觉+触觉）的数据协同工作，提供比单一传感器更丰富、更鲁棒的环境感知。它要求所有传感器同时存在且可用。
传感器替代：是当A传感器（触觉）不可用时，利用B传感器（视觉）的数据，通过一个转换模型，生成A传感器本应输出的信息。它的核心是跨模态映射。

本项目选择“替代”路径，直击了工业部署中的一个典型痛点：算法与硬件的解耦。一个优秀的控制策略（如文中引用的Reactive Pushing Strategy, RPS）不应被绑定在特定的昂贵传感器上。通过替代，我们可以将算法知识迁移到更廉价、更普及的传感器平台，极大提升了算法的可移植性和系统的性价比。

2.2 整体框架与数据流

整个系统的运行逻辑可以概括为一个清晰的闭环，如下图所示（概念示意）：

感知输入：机器人前方的3D LiDAR持续扫描，获得原始点云数据。
特征提取：点云经过一系列预处理（坐标变换、区域过滤、体素化、鸟瞰图投影），被压缩成一个称为“邻近向量场”的紧凑描述符。这一步是关键，它将海量、无序的点云，变成了一个能表征物体与机器人基座前沿空间关系的结构化特征向量。
跨模态预测（核心）：这个特征向量序列被送入一个训练好的LSTM网络——即接触感知模块。该模块内部有两个子网络：
- 接触位置估计器：一个回归网络，输出一个标量值l_hat，预测接触点相对于机器人中心的横向偏移。
- 接触类型估计器：一个分类网络，输出分类标签Ct_hat，判断当前是“无接触”、“点接触”还是“线接触”。
控制执行：预测出的l_hat和Ct_hat被直接输入到原有的RPS控制器中。控制器根据这些“脑补”出的触觉信息，计算所需的机器人线速度和角速度，驱动机器人调整位姿，以稳定地推动物体向目标点移动。
环境反馈：机器人的运动改变了其与物体的相对位置，LiDAR感知到新的点云，开启下一个控制循环。

关键设计洞察：这个框架的精妙之处在于，它没有尝试修改底层控制器（RPS）的逻辑。控制器仍然按照它熟悉的“语言”（接触位置和类型）来工作。深度学习模型扮演的是一个“实时翻译官”的角色，将LiDAR的“视觉语言”实时翻译成控制器能听懂的“触觉语言”。这种设计最大限度地保护了原有控制器的性能和稳定性，降低了系统集成的复杂度。

2.3 为什么选择LSTM？

在模型选型上，作者团队选择了长短期记忆网络，这是一个经过深思熟虑的决策。推动任务是一个典型的时序过程，物体与机器人的接触状态是连续变化的，当前的接触情况与过去几秒内的历史状态高度相关。

处理序列数据：LSTM天生擅长处理像传感器数据流这样的时间序列。它能记住长期的上下文信息，这对于判断接触是刚刚建立、持续保持还是即将丢失至关重要。
应对噪声与动态性：机器人操作环境存在大量噪声（传感器噪声、地面不平、物体滑动）。LSTM的门控机制（输入门、遗忘门、输出门）可以有效地选择性地记忆和遗忘信息，过滤掉无关噪声，专注于与接触状态相关的特征变化，从而提供更稳定、平滑的估计输出。
实时性考量：相比于更复杂的时空网络（如3D卷积+RNN），两层LSTM的网络结构相对轻量。在输入特征（邻近向量场）已经过高度压缩的前提下，LSTM能在保证精度的同时满足实时控制的需求（10Hz以上）。

3. 从原始点云到智能描述符：数据预处理的全流程拆解

深度学习模型的好坏，一半取决于数据，另一半取决于如何喂给模型。将原始的3D LiDAR点云直接扔给LSTM是行不通的，数据量太大、太稀疏、且包含大量无关信息。因此，设计一套高效的特征提取流水线是项目成功的基础。

3.1 预处理步骤详解

假设我们获得的原始点云数据是传感器坐标系Σ_L下的一系列三维点O_L。预处理的目标是将其转化为一个固定长度的、能反映机器人前方物体接近程度的特征向量{||P_s||}。

步骤一：坐标变换与区域过滤首先，将点云从LiDAR坐标系Σ_L转换到机器人基座坐标系Σ_R：O_R = H_R^L * O_L。H_R^L是已知的、标定好的齐次变换矩阵。这一步确保了所有数据都在一个统一的、与机器人运动相关的参考系下。

接着，定义一个“感兴趣区域”。我们只关心机器人正前方可能发生接触的区域，通常是基座前缘的一个长方体空间。通过设置(ϵ_min^x, ϵ_max^x)，(ϵ_min^y, ϵ_max^y)，(ϵ_min^z, ϵ_max^z)的边界，过滤掉机器人后方、侧面、过高或过低的点，得到O_R,filt。这步操作大幅减少了数据量，并聚焦于关键区域。

步骤二：鸟瞰图投影与体素化将过滤后的3D点云投影到2D平面（鸟瞰图）。具体做法是，将所有点的z坐标替换为机器人基座的高度h_b，得到Ō_R,filt。这相当于从正上方俯视，只关心物体在XY平面上的投影与机器人的相对关系。

然后，对这个2D区域进行体素化。将其划分为一个M x S的网格，每个网格单元（体素）的大小是g_x * g_y。g_x和g_y的选择很有讲究：

g_x（沿机器人前进方向）略大于LiDAR光束在h_b高度平面上的间距。这保证了在深度方向有足够的分辨率来感知物体的远近。
g_y（沿机器人横向）的选择则与要替代的触觉传感器有关。在原文中，S被设置为与触觉皮肤上“触觉单元”的数量一致。这使得视觉特征向量的维度与触觉信号的维度在概念上对齐，便于模型学习映射关系。

步骤三：生成“邻近向量场”——核心描述符这是最具创新性的一步。对于体素网格的每一列（s=0,1,...,S-1），我们定义一个向量P_s。

向量起点：固定在该列第一个体素格的中心，其坐标由网格边界和体素大小计算得出。
向量终点：动态计算。扫描该列中的所有体素，找到距离机器人最近的那个非空体素（即m_min）。取这个体素内所有点的x坐标平均值，作为终点x坐标。如果整列都没有点（即前方无障碍物），则将终点x坐标设为区域最大边界ϵ_max^x。

这样，我们就得到了S个向量{P_s}。每个向量的模长||P_s||，直观地表示了在该横向位置（s），物体表面距离机器人基座前缘的“最近距离”。如果物体已经接触，这个距离就是零或负值（取决于接触点计算）；如果物体在前方，则是一个正数。

步骤四：特征归一化最后，将这S个||P_s||值组成一个特征向量，并使用最小-最大缩放进行归一化，使其落入[0,1]或[-1,1]区间。这个归一化后的向量，就是输入给LSTM网络的最终特征。

实操心得：描述符设计的艺术这个“邻近向量场”描述符的设计非常巧妙。它成功地将稀疏、高维的点云数据，压缩成了一个低维、稠密且物理意义明确的特征向量。其物理意义与触觉信号（“哪里被碰到了”）高度相关，极大地降低了模型的学习难度。在实际复现时，你需要根据你的LiDAR型号、安装位置和机器人尺寸，仔细调整ROI边界和体素大小。一个建议是，先用真实数据可视化几帧处理前后的结果，确保描述符能清晰地区分“接触”、“靠近”和“远离”几种状态。

3.2 接触感知模块的网络结构

接触感知模块包含两个独立的LSTM网络，共享相同的输入特征{||P_s||}，但任务不同。

接触位置估计器：
- 任务：回归问题，预测接触点横向偏移l。
- 输入：一个时间序列窗口，例如连续20个时间步（对应2秒数据，假设10Hz频率）的S维特征向量。
- 结构：两层LSTM，每层32个隐藏单元。后接一个全连接层，将LSTM最后一个时间步的输出映射为一个标量值l_hat。
- 输出：归一化的l_hat，反归一化后即得到实际的横向偏移（米）。
接触类型估计器：
- 任务：三分类问题（无接触、点接触、线接触）。
- 输入：与CLE相同的时间序列。
- 结构：同样是两层LSTM（每层32单元），后接全连接层输出三个类别的逻辑值。
- 输出：通过Softmax函数得到三个类别的概率，取最大概率对应的类别为Ct_hat。

两个网络分开训练，但在线运行时同步执行。这样的设计比单个多任务网络更简单、更易于调试和优化。

4. 模型训练与仿真验证：在虚拟世界中“练就神功”

由于在真实世界中同步采集触觉和视觉数据成本高、耗时长，且难以覆盖所有情况，该项目明智地选择了在仿真环境中进行数据收集和模型训练。

4.1 仿真环境搭建与数据采集

仿真平台：使用Gazebo模拟器搭配ODE物理引擎。在仿真中，可以完美地、同步地获取“真值”触觉信号（由Gazebo的接触传感器插件模拟）和LiDAR点云数据，且没有噪声和标定误差，数据质量极高。

数据采集策略：

多样化场景：为了训练出泛化能力强的模型，需要在仿真中构建多样化的交互场景。
- 物体多样性：使用不同形状（立方体、圆柱体）、质量（5kg, 20kg, 25kg）和质心分布（组合物体模拟非均匀质量）的物体。
- 摩擦多样性：设置不同的地面-物体、机器人-物体摩擦系数组合（如S_μ1,S_μ2）。
- 任务多样性：让机器人推动每个物体前往多个不同的目标点（文中在训练集中使用了24个目标点）。目标点应分布在机器人周围的不同方位和距离上，以覆盖前进、后退、侧向推移等多种运动模式。
采集过程：在每次推动任务中，记录以下数据流：
- 输入：每一帧LiDAR点云，以及由其计算出的“邻近向量场”特征。
- 真值标签：
  - 从仿真接触传感器计算出的真实接触横向位置l。
  - 从仿真接触传感器判断出的真实接触类型Ct（根据接触区域宽度是否大于5cm来区分点和线接触）。
包含负样本：特意采集一些机器人未与物体接触时的数据（即“无接触”状态），这对于分类器CTE的学习至关重要。

通过这种方式，可以自动化、大规模地生成一个覆盖各种工况的高质量数据集。文中最终使用了156次试验数据用于训练，36次用于验证。

4.2 训练细节与损失函数

优化器：Adam，学习率设为0.001。
训练轮数：200个epoch。
损失函数：
- CLE（回归）：均方根误差。选择验证集上RMSE最小的模型。
- CTE（分类）：交叉熵损失。选择验证集上交叉熵损失最小的模型。
序列长度：输入LSTM的序列长度为20（2秒历史）。这个长度需要根据机器人运动速度和任务动态特性来调整，太长会增加计算延迟，太短则无法捕捉有效的时序依赖。

4.3 仿真结果分析

在仿真中，作者团队进行了严格的对比实验：

基线：使用“真实”触觉传感器数据的RPS控制器。
替代方案（训练目标集）：使用训练好的CPM（输入LiDAR数据）的RPS控制器，在训练时见过的目标点上测试。
替代方案（新目标集）：使用同样的CPM，在训练时未见过的新目标点上测试。

关键指标：

成功率：机器人在规定时间和距离内将物体推动到目标点附近的试验比例。
最小距离：在整个推动过程中，接触点（或预测接触点）与目标点之间的最小距离。
预测误差：CLE预测的l_hat与真实l之间的RMSE；CTE的分类准确率。

令人振奋的结果：仿真结果表明，使用LiDAR通过CPM预测触觉的控制器，其成功率（95.83%）甚至略高于直接使用触觉传感器的基线控制器（88.19%）。这看似反直觉，实则有其道��。分析发现，CPM预测的接触位置l_hat存在微小的、持续的误差（RMSE约0.04厘米）。这些微小误差无意中“平滑”了接触信号，可能使得RPS控制器做出的调整动作略微提前或延后，反而在动态交互中起到了类似“滤波”或“超前补偿”的积极作用，使得整体推动过程更加平稳。

这个结果强有力地证明了传感器替代方案的可行性，甚至揭示了其潜在优势：经过学习的感知模型，可能比原始传感器更善于提取对特定任务有用的、鲁棒的特征。

5. 从仿真到现实：实物部署的挑战与技巧

将仿真中训练好的模型部署到真实机器人上，即“仿真到现实”的迁移，是任何机器人学习项目的终极考验。本项目在这一步也做了扎实的工作。

5.1 实物实验设置

机器人平台：使用与仿真中模型一致的移动操作臂（Robotnik SUMMIT-XL STEEL），确保动力学特性相似。
传感器：在机器人末端法兰安装Ouster OS0-32 3D LiDAR，其±45°的垂直视场角足以覆盖机器人前方的推动区域。
验证对象：为了充分测试泛化能力，选择了仿真中未出现的、更具挑战性的物体：
- 刚性但形状不规则物体：如带凹槽的箱子。
- 可变形物体：如软包、布袋。
- 极轻或极重物体：扩大质量范围。
- 非凸物体：测试对复杂几何形状的适应性。

5.2 实物部署流程与核心调整

传感器标定：这是最关键的一步。必须精确获取LiDAR相对于机器人基座坐标系的变换矩阵H_R^L。使用手眼标定等标准方法，误差会直接传递到预处理中的坐标变换，影响描述符的准确性。
数据预处理管道复现：将仿真中完全相同的预处理代码（坐标变换、ROI过滤、体素化、邻近向量场计算）移植到真实机器人的上位机。确保所有参数（ϵ_min^x,g_x,g_y等）与仿真设置一致。
模型直接部署：无需微调。直接将仿真中训练好的CLE和CTE模型参数加载到推理引擎中（如TensorRT, ONNX Runtime或简单的PyTorch/TensorFlow推理）。
实时推理循环：以LiDAR的帧率（例如10Hz）运行以下循环：
- 获取最新点云。
- 执行预处理，得到当前帧的{||P_s||}特征向量。
- 将特征向量加入历史序列缓冲区（维护最近20帧）。
- 将序列送入CLE和CTE模型，得到l_hat和Ct_hat。
- 将预测值输入RPS控制器，生成速度指令。
- 发送指令给机器人底盘执行。

5.3 实物实验结果与观察

项目报告显示，在实物实验中，该传感器替代方案成功推动了所有测试物体，包括那些在原始触觉传感器方案中难以处理的轻质物体和可变形物体。这是因为：

原始触觉传感器的局限性：电容式触觉皮肤通常有一个压力阈值，与极轻或柔软物体的接触可能无法触发有效的信号。
视觉替代方案的优势：LiDAR是基于激光测距的，只要物体表面能反射激光，无论其材质软硬、重量大小，都能被探测到。因此，CPM模型能够持续提供稳定的接触估计，即使对于触觉传感器“失灵”的物体。

这一发现凸显了传感器替代的另一个潜在优势：突破原有传感器的物理限制，利用新传感器的特性，反而拓展了系统的应用范围。

6. 常见问题、调优指南与扩展思考

在实际复现或应用此类方案时，你可能会遇到以下问题，以下是一些排查思路和进阶建议。

6.1 问题排查速查表

问题现象	可能原因	排查与解决思路
CLE预测的接触位置`l_hat`波动大	1. LiDAR点云噪声大。 2. 体素化参数`g_x`,`g_y`设置不当，导致特征不稳定。 3. LSTM序列长度太短，无法平滑噪声。	1. 对原始点云进行统计滤波（移除离群点）或半径滤波。 2. 调整体素大小。`g_x`可略大于LiDAR点云在ROI内的平均间距。`g_y`可根据机器人宽度和期望的分辨率调整。 3. 适当增加LSTM输入序列长度（如从20增加到30），或在后处理中对`l_hat`进行低通滤波。
CTE分类错误率高，特别是误判“线接触”	1. 仿真中定义“线接触”的阈值（如5cm）与实物有偏差。 2. 训练数据中“线接触”样本不足。 3. 物体边缘形状特殊，导致点云在接触区域不连续。	1. 分析实物接触数据，重新校准分类阈值。可以在CTE网络后增加一个基于预测`l_hat`附近点云分布的自适应判断逻辑。 2. 在仿真数据采集中，增加使用长条形物体或故意以非正面角度推动物体的试验，以生成更多“线接触”数据。 3. 在特征提取中，除了 `
仿真训练效果好，但实物性能下降	1. 仿真与现实存在“域差异”。 2. 实物LiDAR的噪声、抖动特性与仿真不同。 3. 坐标变换矩阵`H_R^L`标定不准。	1. 在仿真中增加更多随机化：LiDAR噪声模型、运动模糊、地面纹理等。 2. 对实物LiDAR数据进行与仿真类似的预处理（滤波），或使用领域自适应技术。 3.重新精细标定。这是最常见的原因。检查标定板摆放、数据采集和标定算法。
推动过程中物体容易丢失	1. CPM预测延迟导致控制器反应慢。 2. RPS控制器参数（如`K_v`,`K_h`）是针对触觉反馈调优的，对视觉预测的延迟不适应。	1. 优化推理代码，使用更快的推理引擎，或简化网络模型（如减少LSTM单元数）。 2.微调控制器参数。由于预测信号可能有微小延迟和不同噪声特性，可能需要适当调整RPS的速度增益`K_v`或自适应速率计算中的参数`η`,`ζ`，使控制律对预测信号更鲁棒。

6.2 方案扩展与优化方向

多传感器融合与替代：本文主要用LiDAR替代触觉。文中也简要验证了使用RGB-D相机（Intel RealSense D435i）的可行性，且无需重新训练模型。这是因为预处理管道将RGB-D的深度图也转换成了点云，进而生成相同的“邻近向量场”描述符。这展示了该框架对同类型（几何感知）传感器的强泛化能力。未来可以探索更异构的传感器替代，如用单目相机替代触觉。
在线学习与自适应：当前模型是离线训练、固定不变的。可以考虑引入在线学习机制，当机器人在真实环境中运行时，利用少量人工标注或自监督信号（如推动成功/失败），对模型进行微调，使其能适应特定的环境或物体。
端到端控制：目前的框架是“感知替代”+“传统控制器”。一个更激进的方向是训练一个端到端的网络，直接输入LiDAR点云序列，输出机器人速度指令。这样可能获得更优的性能，但可解释性和安全性会面临挑战。
描述符的进一步优化：“邻近向量场”是一个很好的手工特征。可以尝试用更简单的神经网络（如PointNet或小型CNN）直接从原始点云或2D投影中自动提取特征，与LSTM结合，或许能获得更强大的表征能力。

这个项目为我们提供了一个非常清晰且可复现的范例，展示了如何利用深度学习桥接不同传感器模态，从而解耦算法与硬件，提升机器人系统的灵活性和鲁棒性。其核心思想——通过数据驱动的方法，学习一种传感器模态到另一种传感器模态的映射，以维持特定下游任务（如控制）的性能——具有广泛的适用性，可以启发我们在机器人感知、医疗辅助设备、人机交互等诸多领域进行类似的探索。

查看全文

http://www.jsqmd.com/news/875735/