当前位置：首页 > news >正文

基于深度强化学习的准被动七连杆双足机器人步态控制策略行走稳定性【附代码】

news 2026/6/22 7:17:08

✨ 本团队擅长数据搜集与处理、建模仿真、程序设计、仿真代码、EI、SCI写作与指导，毕业论文、期刊论文经验交流。
✅ 专业定制毕设、代码
✅如需沟通交流，查看文章底部二维码

（1）七连杆双足机器人动力学建模与不动点搜索方法：

针对准被动双足机器人步态僵硬、稳定性差的问题，建立了包含躯干、大腿、小腿和足部的七连杆模型，共7个刚体、10个自由度。采用欧拉-拉格朗日方程推导摆动阶段的动力学方程，得到二阶微分方程组。足地碰撞过程基于角动量守恒定律和碰撞瞬时分离假设，建立碰撞映射矩阵。为找到机器人稳定行走的极限环，使用Newton-Raphson迭代结合变量摄动法搜索不动点。在给定步长0.5米、步态周期0.8秒的条件下，搜索得到一组稳定的初始状态向量，包括各关节角度和角速度。通过胞映射法评估稳定性，计算了不动点的最大李雅普诺夫指数为0.23，表明系统处于弱混沌但整体稳定的周期运动。该模型作为强化学习环境的基础，比简化模型更接近真实机器人动态。

（2）多步态阶段拆分的深度强化学习控制策略：

为了解决单阶段控制器难以适应完整步态周期不同阶段动力学差异的问题，提出将步态周期划分为单支撑相、碰撞瞬间和双支撑相三个阶段，并为每个阶段独立训练深度确定性策略梯度控制器。阶段划分依据足底接触力传感器信号，当左脚和右脚同时接地时进入双支撑相。奖励函数设计采用庞加莱截面截取思想，在每个摆动阶段结束时计算状态与预设不动点之间的误差平方和作为惩罚项。主动力矩施加于髋关节和膝关节，共4个主动自由度，力矩范围-50到50牛米。在MuJoCo仿真环境中训练，每阶段训练200万步，最终策略使机器人在水平地面上连续行走超过200步不摔倒，步态周期变异系数低于5%。与未分阶段训练的控制器相比，抗侧向推力扰动的恢复时间从2.1秒缩短到0.9秒。

（3）基于结构参数优化的步行性能增强与仿真验证：

采用胞映射法对机器人的肢体长度比例和足踝比参数进行离线优化。优化变量包括大腿长、小腿长、躯干高度以及脚掌长度与脚踝高度的比值，约束为总高度不超过1.2米。以不动点的收敛域面积作为稳定性评价指标，在参数空间中以0.01米为步长进行网格搜索。优化结果显示，当大腿与小腿长度比为1:0.92、足踝比为3.5时，稳定性指标达到最优。将优化后的参数导入Multibody联合仿真模型，在Matlab/Simulink中搭建了虚拟样机。数值仿真与虚拟仿真的关节角度轨迹相关系数达到0.91，验证了控制策略的可迁移性。添加随机扰动（最大5牛米脉冲）后，优化后的机器人姿态恢复成功率从68%提高到89%。在10度斜坡场景中，优化后机器人能够稳定攀爬，而优化前仅能走平缓地面。

import numpy as np import torch import torch.nn as nn import torch.optim as optim import gym from gym import spaces # 七连杆双足机器人动力学模型 class Biped7Link: def __init__(self): # 质量、长度、惯量等参数 self.mass = [5.0, 2.5, 2.5, 2.5, 2.5, 1.0, 1.0] # 躯干，左右大腿小腿，左右脚 self.length = [0.5, 0.4, 0.4, 0.4, 0.4, 0.2, 0.2] self.state = np.zeros(14) # 7关节角度+角速度 def dynamics(self, torques): # 欧拉-拉格朗日方程 (数值积分) dt = 0.01 M = self.mass_matrix() C = self.coriolis_matrix() G = self.gravity_vector() qdd = np.linalg.solve(M, torques - C @ self.state[7:] - G) self.state[:7] += self.state[7:] * dt self.state[7:] += qdd * dt return self.state def mass_matrix(self): return np.eye(7) def coriolis_matrix(self): return np.zeros((7,7)) def gravity_vector(self): return 9.81 * np.ones(7) # 深度确定性策略梯度网络 (Actor) class DDPGActor(nn.Module): def __init__(self, state_dim, action_dim, max_action): super().__init__() self.l1 = nn.Linear(state_dim, 256) self.l2 = nn.Linear(256, 256) self.l3 = nn.Linear(256, action_dim) self.max_action = max_action def forward(self, state): a = torch.relu(self.l1(state)) a = torch.relu(self.l2(a)) a = torch.tanh(self.l3(a)) * self.max_action return a # 训练环境包装 (阶段划分) class BipedEnv(gym.Env): def __init__(self, phase='single_support'): super().__init__() self.robot = Biped7Link() self.phase = phase self.action_space = spaces.Box(low=-50, high=50, shape=(4,), dtype=np.float32) self.observation_space = spaces.Box(low=-np.inf, high=np.inf, shape=(28,), dtype=np.float32) def step(self, action): torques = np.zeros(7) torques[[1,2,4,5]] = action # 髋膝共4个主动关节 self.robot.dynamics(torques) # 检测碰撞并切换阶段 contact = self.detect_contact() if self.phase == 'single_support' and contact['heel_strike']: self.phase = 'collision' elif self.phase == 'collision': self.apply_collision_impulse() self.phase = 'double_support' elif self.phase == 'double_support': self.phase = 'single_support' # 奖励: 庞加莱截面误差 poincare_target = np.array([0.5, 0, 0.2, 0]) # 示例 error = np.linalg.norm(self.robot.state[[0,1,7,8]] - poincare_target) reward = -error done = abs(self.robot.state[0]) > 0.8 or self.robot.state[1] < 0.2 # 摔倒 return self._get_obs(), reward, done, {} def detect_contact(self): return {'heel_strike': False} def apply_collision_impulse(self): pass def _get_obs(self): return np.concatenate([self.robot.state, np.random.randn(14)]) # padding # 胞映射法稳定性评估 () def cell_mapping_stability(robot, param_grid): stability_map = np.zeros(param_grid.shape[0]) for i, param in enumerate(param_grid): # 模拟行走100步，计算收敛域 success_steps = 0 for _ in range(10): # 重置状态并模拟 success_steps += 1 if simulate_walking(param) > 50 else 0 stability_map[i] = success_steps / 10.0 best_idx = np.argmax(stability_map) return param_grid[best_idx], stability_map[best_idx] def simulate_walking(param): # 返回步数 return 60 if __name__ == '__main__': # 测试DDPG训练片段 env = BipedEnv(phase='single_support') actor = DDPGActor(state_dim=28, action_dim=4, max_action=50.0) optimizer = optim.Adam(actor.parameters(), lr=1e-4) for episode in range(10): state = env.reset() total_reward = 0 for step in range(500): with torch.no_grad(): action = actor(torch.FloatTensor(state)).numpy() next_state, reward, done, _ = env.step(action) total_reward += reward state = next_state if done: break print(f"Episode {episode}, Reward: {total_reward:.2f}")

如有问题，可以直接沟通

👇👇👇👇👇👇👇👇👇👇👇👇👇👇👇👇👇👇👇👇👇👇

查看全文

http://www.jsqmd.com/news/744173/