当前位置：首页 > news >正文

无人机敏捷门穿越控制：MPC与神经网络的混合框架解析

news 2026/7/23 11:48:27

1. 基于分析最优策略梯度的无人机敏捷门穿越控制框架解析

在无人机敏捷飞行控制领域，狭窄门穿越任务一直被视为检验系统性能的黄金标准。传统方法面临参数调优繁琐、适应性不足等问题，而纯端到端学习方法则存在样本效率低、抗干扰能力弱等缺陷。新加坡国立大学团队提出的混合框架创新性地结合了模型预测控制（MPC）与神经网络（NN）的优势，通过分析最优策略梯度实现高效训练，在真实飞行测试中实现了30 m/s²的峰值加速度和1146 deg/s极端扰动下0.85秒快速恢复的卓越表现。

1.1 系统架构设计原理

该框架采用双层闭环结构：外环神经网络实时预测参考位姿和成本权重，内环MPC基于这些参数进行轨迹优化。这种设计巧妙地将NN的环境感知能力与MPC的在线优化特性相结合。具体而言，NN接收无人机当前状态、目标位置和门框角点坐标作为输入，输出包含参考位置pref∈R³、姿态矩阵Mref∈R³ˣ³、位置跟踪权重Qpref∈R³ˣ³、目标到达权重Qpgoal∈R³ˣ³以及姿态权重QRref和时序系数γ等20维决策变量。

与传统方法相比，该框架有三个关键创新点：

采用无约束3×3矩阵表示参考姿态，通过SVD投影获得合法旋转矩阵，避免了欧拉角或四元数表示中的梯度不连续问题
设计时间自适应的成本权重函数，通过tanh和exp函数实现跟踪目标与到达目标的平滑切换
将门碰撞检测建模为可微锥优化问题，将离散碰撞事件转化为连续可优化的缩放因子α

2. 核心算法实现细节

2.1 可微模型预测控制器设计

MPC采用集体推力-体速率(CTBR)控制模型，离散化使用四阶Runge-Kutta方法。其成本函数包含四个关键部分：

位置跟踪成本：

c_p(p,p_{ref}) = (p-p_{ref})^T \tilde{Q}_{p_{ref}}(p-p_{ref})

其中时变权重矩阵通过sigmoid过渡：

\tilde{Q}_{p_{ref}} = \frac{1}{2}Q_{p_{ref}}(1+\tanh(1000(t_{ref}-k\Delta t)))

姿态跟踪成本：采用Frobenius范数衡量姿态误差：

c_R(q,R_{ref}) = \tilde{Q}_{R_{ref}}\|R(q)-SVD^+(M_{ref})\|_F^2

权重按高斯分布调节：

\tilde{Q}_{R_{ref}} = Q_{R_{ref}}\exp(-\gamma(k\Delta t-t_{ref})^2)

目标到达成本：在预测时域末端加强目标位置约束：
```
c_{goal}(x,x_{goal}) = (x-x_{goal})^TQ_{x_{goal}}(x-x_{goal})
```
控制平滑项：最小化控制量变化：
```
c_u(u) = (u-u_{hover})^TQ_u(u-u_{hover})
```

2.2 神经网络训练策略

训练使用三层MLP（256-256-20），采用SiLU激活函数和谱归一化。关键创新在于通过分析最优策略梯度实现高效训练：

高层损失函数：

L = \beta_{gate}\sum_{n=0}^{p-1}(\alpha_n^*-1)^2 + \beta_{goal}\sum_{j=N-h+1}^N \|p_j-p_{goal}\|^2 + \beta_{control}\|u_i-u_{i-1}\|^2

其中α*来自锥优化问题的解，表示无人机与门框的安全裕度

梯度计算：通过链式法则分解：

\frac{dL_i}{d\varpi} = \underbrace{\frac{\partial L_i}{\partial \xi_i}}_{\text{高层损失梯度}} \cdot \underbrace{\frac{\partial \xi_i}{\partial z_i}}_{\text{MPC隐式微分}} \cdot \underbrace{\frac{\partial z_i}{\partial \varpi}}_{\text{NN自动微分}}

MPC梯度通过Safe-PDP方法计算，利用PMP条件和Riccati递推
碰撞检测梯度通过包络定理直接求解Lagrangian对参数的偏导

训练参数：
- 学习率0.0002，Adam优化器
- 批次大小32，预测时域20步(2秒)
- 损失权重βgate=100, βgoal=2, βcontrol=0.001

3. 实际部署与性能验证

3.1 硬件配置

测试使用自定义四旋翼无人机，关键参数：

轴距：25 cm
重量：260 g
计算单元：Radxa ZERO 2 pro (Cortex A73 2.2GHz)
控制频率：MPC 100Hz，底层速率环1kHz
感知：运动捕捉系统+IMU融合(100Hz)

3.2 飞行性能指标

基础任务表现：
- 可通过倾斜达70°的狭窄门(60cm×25cm)
- 保持最小7.5cm安全裕度
- 峰值加速度30 m/s²
- 在3.6m×2m受限空间内完成机动
抗干扰能力：
- 从20 rad/s(1146 deg/s)体速率扰动中恢复
- 恢复时间0.85秒，比级联PID快2.5倍
- 比PPO训练的策略减少40%振荡
训练效率：
- 仅需736k仿真步数收敛
- 策略梯度计算耗时0.16秒，比有限差分法快45%
- 成功率达80.46%，较固定参数MPC提升8倍

3.3 典型飞行数据分析

图4展示了穿越-65°倾斜门时的关键数据：

NN预测调整：
- 当无人机出现上偏时，NN自动下调参考位置y坐标
- 姿态参考矩阵Mref同步调整，引导无人机俯仰
权重自适应：
- 接近门时Qpref权重从300升至400
- 穿越后Qpgoal权重从50增至250
- γ参数在穿越时刻附近从40降至35，加宽姿态跟踪窗口
控制指令：
- 推力在0.2-0.8倍最大推力间快速切换
- 体速率指令达5 rad/s，充分利用执行器能力