当前位置：首页 > news >正文

机器人运动控制中的观察空间与动作空间设计

news 2026/5/28 6:09:08

1. 机器人运动控制中的空间设计基础

在机器人运动控制领域，观察空间(Observation Space)和动作空间(Action Space)的设计直接决定了控制算法的性能和机器人的运动能力。这两个概念源于强化学习框架，构成了马尔可夫决策过程(MDP)的核心要素。

观察空间相当于机器人的"感官系统"，包含了所有可供决策使用的感知信息。以四足机器人Anymal为例，其观察空间设计考虑了以下几个关键维度：

本体状态感知：包括基座线速度(v_base_lin)和角速度(v_base_ang)在局部坐标系下的测量值，这些数据来自IMU惯性测量单元
环境参照系：重力投影(g_proj)提供了机器人相对于重力方向的姿态信息
运动指令：速度命令(v_cmd)代表期望的运动目标
关节状态：12个关节的位置(q)和速度(q̇)反馈
历史动作：上一时刻执行的动作(a_{t-1})

这种设计背后的工程考量是：机器人需要同时感知自身状态、环境参照和任务目标，才能做出合理的运动决策。基座速度帮助判断整体运动趋势，重力投影提供姿态基准，关节状态反映肢体配置，而历史动作则保持了时间连续性。

动作空间则代表了机器人的"执行能力"。Anymal采用目标关节位置作为动作输出，这种选择基于以下考虑：

关节位置控制是大多数机器人底层的控制接口
位置指令比直接扭矩指令更稳定，安全性更高
通过PD控制器可以将位置指令转换为底层电机控制

实际工程中，动作空间的维度通常与机器人的自由度(DOF)一致。Anymal的12维动作空间对应其12个主动关节，每个维度代表一个关节的目标角度。

2. 典型机器人的空间设计对比

2.1 四足机器人Anymal的实现细节

Anymal的观察空间设计体现了四足机器人的典型需求。其37维观察向量可以分解为：

观测类别	维度	传感器来源	更新频率
基座线速度	3	IMU+状态估计	1kHz
基座角速度	3	IMU	1kHz
重力投影	3	IMU	1kHz
速度命令	3	上层规划	50Hz
关节位置	12	编码器	1kHz
关节速度	12	编码器差分	1kHz
历史动作	12	控制器记录	50Hz

这种设计确保了：

高频本体感知(1kHz)用于快速反应
低频命令(50Hz)匹配规划层频率
历史动作提供动作平滑性

奖励函数的设计同样精心构造，包含14个独立项：

# 伪代码示例：Anymal奖励计算 def compute_reward(state, action): # 速度跟踪奖励 lin_vel_reward = exp(-||v_xy - v_cmd_xy||^2 / σ^2) ang_vel_reward = exp(-||ω_z - ω_cmd_z||^2 / σ^2) # 惩罚项 vert_penalty = ||v_z||^2 torque_penalty = ||τ||^2 joint_limit_penalty = sum(max(0, q_i - q_max, q_min - q_i)) # 组合奖励 total_reward = (1.0*lin_vel_reward + 0.5*ang_vel_reward - 2.0*vert_penalty - 2.5e-5*torque_penalty - 1.0*joint_limit_penalty) return total_reward

2.2 双足机器人GR1的特殊考量

GR1作为双足机器人，其空间设计面临更大挑战。相比Anymal，GR1的观察空间增加了：

高度扫描信息(h_scan)：173维的腿部周围地形扫描数据
扩展的关节状态：23个关节的位置和速度
足部位置反馈：在AMP演示状态中包含足部局部坐标

这些扩展源于双足行走的特殊需求：

地形感知对平衡至关重要
更多的关节需要更精细的控制
足部位置直接影响步态稳定性

GR1的奖励函数也更为复杂，包含16个独立项，特别强调：

终止惩罚(-200.0)：防止跌倒
足部滑动惩罚：保持接触稳定性
无飞行惩罚：避免双足同时离地

3. 工程实现中的关键问题

3.1 传感器数据处理管道

在实际系统中，原始传感器数据需要经过精心处理才能作为观察空间输入：

IMU数据滤波：使用互补滤波器或卡尔曼滤波融合加速度计和陀螺仪数据
状态估计：通过运动学模型和滤波器估计基座速度
关节速度计算：对编码器位置进行数值差分和低通滤波
坐标系转换：将全局测量转换到局部坐标系

常见错误：直接使用原始IMU数据会导致观察噪声过大。实测表明，未经滤波的角速度数据可能包含±0.5rad/s的噪声，严重影响控制性能。

3.2 动作空间的实现细节

目标关节位置的实现涉及多个工程考量：

插值处理：在控制周期之间进行三次样条插值，避免阶跃变化
关节限位：在动作输出层应用tanh激活函数，映射到机械限位范围内
阻抗控制：通过PD控制器将位置指令转换为扭矩指令

// 简化的关节控制示例 void JointController::update() { // 读取当前状态 double q = getJointPosition(); double qd = getJointVelocity(); // 计算控制指令 double tau = kp*(q_desired - q) + kd*(0 - qd); // 应用扭矩限幅 tau = clamp(tau, -tau_max, tau_max); setJointTorque(tau); }