当前位置：首页 > news >正文

ExT框架：基于Transformer的自主挖掘机智能控制系统

news 2026/7/23 15:25:21

1. 自主挖掘技术的现状与挑战

在建筑和采矿行业中，挖掘机是最常见也最关键的设备之一。传统的人工操作挖掘机面临着诸多挑战：操作人员需要经过长期培训才能熟练掌握挖掘技巧，工作环境通常恶劣且危险，长时间作业容易导致疲劳和效率下降。这些问题促使行业寻求自动化解决方案。

当前主流的自主挖掘系统主要采用两种技术路线：

基于规则的控制系统：通过预先编程的轨迹规划和PID控制实现简单重复动作。这类系统在结构化环境中表现稳定，但遇到土壤类型变化或意外障碍时容易失效。
单任务强化学习策略：针对特定挖掘任务训练的专用控制器。虽然能适应一定程度的工况变化，但每遇到新任务或新机型都需要重新训练，部署成本高昂。

这两种方法都存在明显的局限性：前者缺乏适应性，后者缺乏通用性。这就像教一个人只会用固定姿势挖同一种坑，稍微改变坑的形状或深度就束手无策。

2. ExT框架的核心设计理念

2.1 多任务预训练的基础架构

ExT框架的创新之处在于将自然语言处理领域成功的大规模预训练范式引入到机器人控制领域。其核心是一个基于Transformer架构的策略网络，具有以下关键设计：

统一的状态-动作接口：为不同挖掘子任务（挖掘、倾倒、移动等）设计标准化的输入输出格式，使模型能够跨任务共享表示。状态空间包含55维观测值，包括关节位置/速度、铲斗填充率、土壤高度等；动作空间则控制5个执行机构（4个关节+1个转台）。
GPT风格的解码器：采用6层Transformer结构，每层6个注意力头，隐藏维度640。模型以25步历史为上下文窗口，通过自回归方式预测关节速度指令。这种架构选择源于Transformer在处理时序数据时展现出的优于RNN的长期依赖建模能力。
混合专家数据集：通过组合三种数据源构建训练集：
- RL专家：使用PPO算法在随机化环境中训练的接触密集型任务（如挖掘）策略
- 脚本控制器：基于运动规划的精确轨迹（如铲斗定位）
- 人工遥操作：处理异常情况（如碰撞恢复）

2.2 仿真到实物的关键技术

为缩小仿真与现实间的差距（sim-to-real gap），ExT采用了几项重要技术：

域随机化：在仿真训练阶段随机变化以下参数：
- 土壤力学特性（内摩擦角0.3-0.8rad，粘聚力0-100kPa）
- 地形剖面（最大挖掘深度0-0.5m变化）
- 执行器动态（添加0.75s延迟和0.2rad/s的速度噪声）
多模态观测：除了常规的关节状态，模型还接收：
- 铲斗与土壤的交互力（通过关节扭矩间接感知）
- 土壤高度剖面（5个距离点的测量值）
- 铲斗攻击角（反映入土姿态）
硬件接口抽象：将真实的液压系统非线性特性封装为标准速度指令接口，使策略无需了解底层执行细节。

3. 两阶段微调策略详解

3.1 监督微调(SFT)流程

当需要让模型快速掌握新技能但只有少量演示数据时（如从1000次人类操作中学习倾倒动作），ExT采用监督微调：

数据准备：
- 新任务演示（如1000次倾倒）
- 旧任务保留集（500次挖掘+350次移动的随机采样）

训练过程：

# 伪代码示例 for batch in dataloader: # 混合新旧任务数据 states, actions = batch pred_actions = model(states) loss = L1_loss(pred_actions, actions) # 防止灾难性遗忘 optimizer.zero_grad() loss.backward() optimizer.step()

性能表现：
- 仅用1k演示即可达到96%的倾倒成功率
- 原始任务性能保持率>98%
- 位置误差从初始的45.7cm降至4.3cm

关键技巧：采用与预训练相同的L1损失和优化器设置，避免因训练配置变化导致的性能波动。

3.2 强化学习微调(RLFT)实现

当遇到仿真中未见过的情况（如阶梯状地形、新型铲斗）时，ExT通过RLFT进行适应：

稳定训练的关键设计：
- 极低的学习率（10^-5量级）
- 独立的动作标准差参数（与策略网络解耦）
- KL散度正则化（β=0.02）约束策略偏移
- 评论家网络预训练（100步warm-up）

改进的PPO目标函数：

L(θ) = E[ min(r_t(θ)Â_t, clip(r_t(θ),1-ε,1+ε)Â_t) - c1*VF_loss + c2*entropy_bonus ] - β*KL(π_θ||π_0)

适应效果：
- 在阶梯地形上成功率从65.2%提升至96.6%
- 新型铲斗适应仅需100次迭代（约1.6M环境交互）
- 原始任务性能下降<2%

4. 实际部署中的工程考量

4.1 硬件集成方案

在Menzi Muck M545挖掘机上的实际部署涉及以下工程实现：

传感器配置：
- 关节编码器（0.1°分辨率）
- 液压缸压力传感器（估算负载）
- 惯性测量单元（监测机身姿态）
- 定制土壤剖面雷达（5点测距）

实时控制架构：

传感器数据 → 状态估计器(500Hz) → 策略网络(20Hz) → 指令平滑(100Hz) → 液压控制器(1kHz)

安全监控层：
- 关节限位检查
- 奇异构型回避
- 紧急停止覆盖

4.2 工作循环性能

完整的工作循环（挖-运-卸）实测数据：

指标	数值	对比人工
循环时间	36s	±15%
铲斗填充率	141%	+23%
定位误差	<7cm	相当
连续作业时长	>8h	+300%

特别值得注意的是碰撞恢复功能的表现：当铲斗意外撞击隐藏岩石时，系统能在1.2秒内检测到异常（通过扭矩突变），并在3秒内完成回缩和复位，避免了99%的潜在设备损坏情况。

5. 技术局限性与未来方向

尽管ExT框架表现出色，但仍存在一些待改进之处：

实时计算需求：
- Transformer推理需要约15ms/步（NVIDIA Jetson AGX）
- 对于更小型的嵌入式控制器可能需模型蒸馏
极端工况应对：
- 粘性极高的粘土（粘聚力>150kPa）
- 完全松散的干砂（内摩擦角<0.2rad）
- 这些情况需要扩展训练数据分布
长期自治挑战：
- 连续工作时的工具磨损补偿
- 季节变化导致的土壤特性改变
- 多机协作的场景扩展

一个有趣的发现是：当预训练数据中包含足够多样的恢复动作时，模型甚至能自发学会一些非传统的挖掘技巧，比如利用铲斗侧面刮削斜坡，这显示出大规模预训练带来的涌现能力。

查看全文

http://www.jsqmd.com/news/927098/

PHPGraphQLAPI实现与最佳实践

机器学习驱动的数据清洗：从规则到智能的范式转变与实践指南

《数据库原理》精要解读（八、九、十）—— 事务、恢复与并发：数据库内核的三大支柱

区块链+物联网构建环境价值互联网：机器自主交易绿电与碳资产

面试官最爱问的Python八股文，我用这18个知识点帮你一次性理清（附避坑指南）

AMD SEV实战：在KVM/QEMU上快速搭建你的第一个机密虚拟机（含密钥管理避坑指南）

基于深度学习的yolov8仪器仪表识别数字表压力表读数温度计读数电压表读数图像识别系统设计

别再手动算时间差了！用Ant Design Vue的a-table组件，5分钟搞定表格日期列差值展示

学生选课微信小程序全栈开发包（含SSM后台源码、MySQL建表脚本与部署说明）

构建面向AI的现代数据湖：从架构原则到硬件选型实战

基于打字模式的用户身份验证：从行为生物识别到AI驱动的持续安全防线

用影子模式测试新版 Harness 逻辑

AI Agent Harness冷启动优化：快速响应方案

AI替代人类工作的三步走策略与真实案例分析

医疗设备安规入门：一张图搞懂BF型设备的MOOP/MOPP绝缘路径（附GB 9706.1附录解析）

从布尔表达式到可综合代码：一个全加器的Verilog RTL设计完整流程（附代码规范检查清单）

从DDR到DDR5：Burst和Prefetch的演变如何决定了内存性能的飞跃

【读书笔记】《架构即未来》精华解读

DIY土壤湿度传感器：从腐蚀铜板到Arduino读取的完整指南

AI驱动招聘自动化：四大核心场景与成本效益深度解析

避坑指南：逆向同花顺问财hexin-v时，你可能遇到的3个环境检测与反调试问题

保姆级教程：用Python和nuscenes-devkit从零玩转nuScenes自动驾驶数据集（附完整代码）

别只当备份用！解锁PostgreSQL逻辑复制的5个高阶玩法：从CDC到微服务数据分发

【分享】微恢复助手照片快速恢复安全不泄露超好用

量子策略评估（QPE）原理与强化学习应用

别再只用if了！用np.all()和np.any()让你的NumPy数据清洗效率翻倍

保姆级避坑指南：Win11下搞定MATLAB 2022a、AMESim 2021与VS2019的联合仿真环境搭建

Nacos 2.x 本地联调踩坑记：解决 gRPC 端口偏移导致的 StatusRuntimeException

从呼吸到电能：DIY口罩发电项目详解与能量收集技术实践

【字节跳动】豆包全用户统一对话全量归档公共源码