当前位置：首页 > news >正文

当Transformer遇上触觉：MoT架构如何解决“慢视觉”与“快触觉”的矛盾？

news 2026/6/26 5:27:32

当Transformer遇上触觉：MoT架构如何解决“慢视觉”与“快触觉”的矛盾？

深度解析T-Rex MoT架构，如何让机器人操作成功率提升30%。

引子

本文来源于2026年6月18日最新的论文的个人分析和理解：

“T-Rex: Tactile-Reactive Dexterous Manipulation. Dantong Niu, Zhuoyang Liu, Zekai Wang, et al. ∗Equal Contribution. (2026). UC Berkeley, NVIDIA, Stanford, Panasonic, La Sapienza University, ItalAI.”

前言：触觉，具身智能的“最后一公里”

在具身智能（Embodied AI）的赛道上，我们见证了视觉语言模型（VLM）如何让机器人“看懂”世界，也目睹了动作基元（Action Primitives）如何让机械臂“动”起来。然而，当机器人面对插卡、拧灯泡、翻书页这些人类习以为常的精细操作时，往往显得笨拙不堪。

核心痛点在于：缺乏对物理接触的实时反馈能力。

当前，以帕西尼（Pacini）和戴盟（Daimeng）为代表的国内团队正在大力投入触觉感知领域。业界正酝酿着一个新概念——VTLA（Vision-Tactile-Language-Action，视觉-触觉-语言-动作）。这不仅仅是给机器人加上“皮肤”，更是对整个感知决策架构的重构。近期发布的论文《T-Rex: Tactile-Reactive Dexterous Manipulation》正是这一方向的集大成者，它通过一种全新的MoT（Mixture-of-Transformer-Experts）架构，让机器人的灵巧手操作成功率提升了30%以上。

这背后，是一场关于“分层处理”与“触觉权重”的静默革命。

正文：解构T-Rex——MoT架构与触觉的“分权制衡”

1. 从VLA到VTLA：感官维度的跃迁

传统的VLA（视觉-语言-动作）模型虽然强大，但其致命弱点在于“开环”。它们依赖视觉进行宏观规划，但在指尖接触物体的毫秒级瞬间，视觉的滞后性（通常30Hz）远不及触觉的高频反馈（可达数百Hz）。

T-Rex论文敏锐地捕捉到了这一点。它不再将触觉视为简单的辅助模态，而是将其提升到了与视觉、语言并列的核心地位。这种VTLA范式认为：真正的灵巧操作，必须建立在对力、形变、微滑的即时感知之上。

2. MoT架构：让“慢思考”与“快反应”并行

你提到的“模型内部分层处理不同的数据源”，在T-Rex中体现为一种精妙的**异步级联流匹配（Asynchronous Cascaded Flow Matching）**机制。这与当前LLM领域的大一统模型思路截然不同，它更像是一种“专家委员会”制度。

T-Rex的骨干网络采用了**MoT（Mixture-of-Transformer-Experts）**设计，内部拆分为三个专家模型系统：

潜在专家：负责处理视觉和语言，提供时空上下文。
动作专家：负责低频（Slow Stream）的动作规划，生成基础的动作流。
触觉专家：负责高频（Fast Stream）的触觉修正，利用实时触觉信号对动作进行“残差 refinement”。

3. 触觉编码器：不只是力反馈，更是“时空”记忆

T-Rex的成功，除了架构上的创新，更依赖于其对触觉数据的深度挖掘。它没有简单地使用MLP处理力传感器数据，而是引入了一个时空VQ-VAE编码器。

时域编码（Temporal）：使用VQ-VAE将过去15帧的力历史压缩为紧凑的离散Token。这赋予了模型“记忆”接触过程的能力，能感知摩擦和滑动。
空域编码（Spatial）：提取指尖的形变图（Deformation Map），捕捉接触的几何特征。

这种**“力+形变”**的双重编码，使得触觉模态在模型中的权重显著增加。正是这种对触觉细节的极致利用，使得T-Rex在处理插入、形变物体操作时，成功率比最强基线高出30%。

4. 数据飞轮：从人类视频到机器人落地

T-Rex的训练策略也颇具匠心，采用了“三段式”进阶：

大规模人类视频预训练：利用22,889小时的人类第一人称视频，让模型学会“人类是如何动的”（Visuomotor Priors）。
触觉接地中期训练：这是关键一步。利用100小时的双手机械臂遥操作数据（包含同步触觉信号），将人类的视觉先验“落地”为机器人的物理接触动力学。
特定任务微调：针对具体任务（如翻书、拧螺丝）进行少量数据微调。

这种策略极大地降低了对昂贵机器人触觉数据的依赖，实现了数据效率的飞跃。

实验验证：30%提升的背后

论文在12项极具挑战性的灵巧操作任务中验证了T-Rex的效果，包括翻书页、转移鸡蛋、拧灯泡等。结果显示，T-Rex的平均成功率达到了65%，而之前的SOTA（如EgoScale）仅为35%。

为了直观展示这一差距，我们整理了部分核心任务的对比数据：

任务名称	描述	T-Rex 成功率	基线 (EgoScale)	提升幅度
Flip Page	翻书页	96%	68%	+28%
Screw Bulb	拧灯泡	35%	18%	+17%
Open Lock	开锁	47%	19%	+28%
Extract Card	抽卡片	70%	34%	+36%

数据来源：T-Rex论文 Table 1

从数据可以看出，在需要精细力控制和接触调整的任务（如翻页、抽卡）中，T-Rex的优势最为明显。这有力地证明了触觉模态在这些特定约束条件下的决定性作用。

总结：触觉智能的未来与挑战

T-Rex的出现，不仅是刷榜那么简单。它通过MoT架构证明了：在机器人控制领域，盲目追求“大一统”的端到端模型可能并非最优解。相反，将不同频率、不同性质的模态进行拆分处理，赋予触觉更高的决策权重，才是实现敏捷、灵巧操作的关键。

结合你提到的观点，这一领域的未来将呈现以下趋势：

架构解耦化：类似MoT的混合专家架构将成为主流，视觉、语言、触觉、运动控制将由专门的子模型处理，再通过门控机制融合。
触觉前置化：触觉不再仅仅是避障的“安全气囊”，而是主动感知的“探索触角”。VTLA模型将赋予机器人更强的物理直觉。
数据合成化：随着仿真技术的进步，结合人类视频先验与合成触觉数据的训练范式，将加速机器人的落地应用。

当然，挑战依然存在。正如论文Limitation部分所言，硬件传感器的畸变、标定漂移，以及缺乏手掌全域的密集触觉感知，仍是制约性能的瓶颈。但不可否认，我们正站在一个新时代的门槛上——机器人即将拥有“触觉”。

http://www.jsqmd.com/news/1079414/

相关文章：

齿轮检测还在靠齿轮测量中心？嘉腾闪测仪让批量全检成为现实

压缩包密码恢复终极指南：告别遗忘密码的烦恼

STM32-S177-交流电压+电流+功率+过载保护+定时开关+时钟+漏电保护+OLED屏+声光报警+按键+(无线方式选择)-2(设计源文件+万字报告+讲解)（支持资料、图片参考_降重降ai）

边界驱动调和模型：非平衡稳态的遍历性与涨落分析

STM32-S178-交流电压+电流+功率+过载保护+电量+时钟+分时段计费+漏电保护+OLED屏+声光报警+按键+(无线方式选择)-2(设计源文件+万字报告+讲解)（支持资料、图片参考_降重降ai）

【信道容量估计】基于AWGN、香农、最大中断、零中断和最大的最佳功率分配的中断门限实现信道容量估计附Matlab代码

Wazuh与Sysmon for Linux组合：构建Linux主机深度安全监控体系

抖音无人直播技术全解析：从OBS推流到自动化运营的合规实践

今天是个好天气！ ☀️

三维空间平铺软化算法：从多面体到光滑填充的几何计算实践

世界杯引入 AI 辅助判罚，裁判真的会“失业“吗？

生产级监控方案，Prometheus 加 Grafana 守护 AMD GPU 推理服务

用StataNow19SE画正态分布图

Java Web应用XSS防护终极指南：九大核心技巧构建纵深防御体系

小型企业免费会务系统选对不选贵：会助力把高性价比办会做到实处

【无人机协同任务】基于虚拟引导结合MPC的人工势场算法实现无人机群系统协同攻击，提升动态环境中的任务成功率并降低风险附Matlab代码

C++云存储项目

如何制定高效学习路线图：从目标拆解到项目实战的完整指南

2025门店稳配增效实战：3步拆解功效护肤项目高复购与收现底层逻辑

C#工业相机触发实战：从“拍得到”到“拍得准”的工程跨越

2026年常见文献管理工具优缺点横评：7款主流软件功能对比与客观选型参考

AI时代，GEO如何重塑品牌信任？

HarmonyOS技术精讲-UI开发调试调优：从零认识ArkUI调试体系

本地部署大模型实战：Qwen+RAG企业知识库搭建指南

Java毕设选题推荐：高校实验室资源开放共享与预约管理系统设计与实现轻量化高校实验室开放调度管理系统设计与实现【附源码、mysql、文档、调试+代码讲解+全bao等】

团体标准有法律效力吗？一文讲清效力边界与企业适用场景

告别繁琐布线，一“电”搞定全屋智能灯光——PLC智能照明系统，让灯光真正“聪明”起来

如何用KeymouseGo实现自动化操作：鼠标键盘录制与重复执行的终极指南

计算机视觉任务辨析报告：分割、检测与识别为何并存？