当前位置：首页 > news >正文

3自由度跳跃机器人：驱动系统与强化学习控制创新

news 2026/5/23 11:33:12

1. 3-DOF跳跃机器人平台设计概述

这个12.45公斤重的3自由度跳跃机器人平台，是我们团队为未来双足机器人开发打造的中间验证原型。它采用类人下肢关节配置（1个膝关节+2个踝关节）和平足设计，能够完成动态跳跃、前空翻等高难度动作。最让我兴奋的是，这个平台在硬件和控制两个维度都实现了突破性创新。

在硬件方面，我们遇到了一个典型的两难问题：关节空间极其有限的情况下，如何同时实现高扭矩输出和大尺寸空心轴？传统方案往往需要在这两者之间妥协。我们的解决方案是开发了一套基于3K复合行星齿轮箱的定制化驱动系统，通过混合整数非线性规划（MINLP）方法对齿轮齿形进行优化，最终在直径170mm的紧凑空间内实现了20:1的减速比和12mm的空心轴直径。

控制层面同样充满挑战。由于平足设计带来的复杂接触动力学，我们放弃了传统的基于模型的控制器，转而采用强化学习方案。这套系统只需要本体感知信息就能实现稳定的速度跟踪，还能完成前空翻这种需要精确协调各关节爆发力的动作。在实测中，机器人展示了惊人的环境适应性——不仅能应对台阶地形变化，被踢一脚后还能自动恢复平衡继续跳跃。

2. 机械系统创新设计解析

2.1 关节构型与动力传输设计

这个机器人的机械构型藏着不少精妙之处。我们刻意模仿了人类下肢的关节配置：单自由度膝关节配合双自由度踝关节（俯仰+侧摆）。这种设计看似简单，实则为后续扩展成全尺寸双足机器人埋下了伏笔。

动力传输方案根据关节特性做了差异化设计：

膝关节：采用四连杆机构实现1:1扭矩传递，将D151执行器（后面会详细介绍）布置在上连杆附近。这种布局将转动惯量降低了约37%，实测动态响应速度提升了25%
踝关节：创新性地采用闭环并联机构。两个D110A执行器平行布置，通过万向节（foot端）和球铰（执行器端）的配合，仅用两个执行器就实现了俯仰和侧摆两个自由度。这种设计比传统的串联方案节省了约15%的空间

关键提示：并联机构设计时要特别注意奇异位形问题。我们通过运动学仿真发现，当踝关节俯仰角超过40°时会出现力传递效率骤降，因此最终将俯仰运动范围限制在-50°~40°。

2.2 定制化执行器系统

市面上的现成执行器根本无法满足我们的需求，于是我们开发了两款定制执行器：

参数	D151（膝关节）	D110A（踝关节）
减速器类型	3K复合行星齿轮	单级行星齿轮
减速比	20:1	8:1
峰值扭矩	320Nm@50A	176Nm@50A
最高转速	10rad/s	20rad/s
空心轴直径	12mm	8mm

执行器的核心突破在于电机和减速器的协同设计：

电机部分：采用VA-COFLUX48钴基钢片定子和52SH级钕磁铁转子，扭矩密度比普通电机提升约30%
减速器部分：D151的3K复合行星齿轮箱通过MINLP优化（后文详述），在保持高减速比的同时实现了大尺寸空心轴
集成设计：将电机驱动器直接集成在执行器后端，节省了30%的布线空间。驱动器支持100V输入电压和20kHz电流控制频率

3. 3K复合行星齿轮箱优化设计

3.1 为什么选择3K结构？

传统单级行星齿轮在我们要的20:1减速比下会面临两个致命问题：要么体积过大挤占关节空间，要么空心轴直径太小无法布线。3K复合行星齿轮的独特优势在于：

通过两级行星轮复合传动，在同等体积下能实现更高的减速比
太阳轮和固定内齿圈可以做得更大，自然形成更大的中心空间
载荷被分散到多个行星轮上，单个齿轮的受力更小

但设计这种齿轮箱就像玩立体拼图——五个齿轮（太阳轮、输入行星轮、输出行星轮、固定内齿圈、输出内齿圈）的齿数必须同时满足传动比、装配条件和干涉约束。传统试错法可能需要数周时间，而我们的MINLP方法能在几小时内找到最优解。

3.2 MINLP优化模型详解

我们的优化模型包含以下关键要素：

设计变量（均为正整数）：

Z_S：太阳轮齿数
Z_P1：输入行星轮齿数
Z_P2：输出行星轮齿数
Z_F：固定内齿圈齿数
Z_O：输出内齿圈齿数

目标函数（最小化）：

J = (1/Z_S)^2 + ((Z_F - D)/M)^2 + Z_P1^2 + Z_P2^2 + Z_O^2

这个函数巧妙平衡了两个需求：前两项促进增大空心轴直径（D为转子内径，M为模数），后三项控制其他齿轮尺寸以减轻重量。

约束条件：

几何约束：Z_F = Z_S + 2Z_P1，Z_O = Z_S + Z_P1 + Z_P2
装配条件：(Z_F + Z_S)/n_P ∈ℤ，(2Z_O - 2Z_P2)/n_P ∈ℤ
传动比约束：G_target = 2Z_P1(Z_F - Z_P1 + Z_P2)/[(Z_F - 2Z_P1)(Z_P1 - Z_P2)] = 20
干涉约束：α_min ≤ π/n_P - arcsin[Z_P1/(Z_S + Z_P1)]

使用BARON求解器，我们最终得到的优化结果是：

Z_S=44, Z_P1=44, Z_P2=32, Z_F=132, Z_O=120
模数M=0.6，空心轴直径达到12mm
总重量比传统设计减轻约15%

实践心得：齿轮优化时一定要考虑加工可行性。我们最初得到一个理论最优解含117齿的齿轮，但加工厂反馈这个齿数会导致滚刀寿命骤减。最终我们调整模数使所有齿轮齿数都控制在150以下。

4. 控制系统设计与实现

4.1 强化学习框架设计

针对平足跳跃的复杂动力学，我们开发了一套基于屏障奖励的强化学习控制系统。其核心创新在于：

观测空间（共127维）：

本体感知：关节位置/速度（含0.1s历史）、IMU数据、相位信号
特权信息（仅训练时用）：足端接触状态、地形高度、质心位置

动作空间：

目标关节位置→通过PD控制器转换为扭矩
更新频率：2kHz（与硬件控制频率一致）

双重奖励机制：

屏障奖励：用对数屏障函数约束关键运动参数，如步态相位、足端高度、质心位置等
标准奖励：包括速度跟踪奖励、动作平滑惩罚、接触惩罚等

网络结构：

Actor和Critic都是3层MLP（256-256-128）
使用PPO算法训练，在NVIDIA A100上约需8小时收敛

4.2 仿真到实物的关键技巧

让仿真策略在实物上work的秘诀：

动力学随机化：
- 质量±10%，惯量±15%，地面摩擦系数0.3-1.2
- 执行器延迟0-5ms，扭矩噪声±3%

闭环机构处理：

# 初始化时用PD控制保持踝关节初始位形 while not constraint_satisfied: ankle_pitch_torque = kp*(q_des - q_act) + kd*(dq_des - dq_act) apply_torques() simulate_one_step()