当前位置：首页 > news >正文

从零实现强化学习控制倒立摆：DQN变体对比与参数调优实战

news 2026/6/18 16:48:30

1. 倒立摆问题与强化学习基础

倒立摆是控制理论中的经典问题，就像试图用手指平衡一根直立的木棍。这个看似简单的任务实际上包含了丰富的动力学特性，非常适合用来验证强化学习算法的有效性。在强化学习框架下，智能体（agent）通过与环境交互来学习控制策略，目标是在不施加过多能量的情况下保持摆杆直立。

我刚开始接触这个问题时，以为用简单的规则控制就能解决，但实际动手后发现远非如此。倒立摆系统具有非线性、不稳定等特点，传统控制方法需要精确的数学模型，而强化学习则能通过试错自动学习控制策略。Gymnasium库提供了标准的倒立摆环境，但为了更好地理解底层原理，我们可以从零开始构建自定义环境。

倒立摆的物理参数非常关键，这里我们使用一组经过验证的典型值：

摆杆质量：0.055kg
摆杆长度：0.042m
转动惯量：1.91×10⁻⁴kg·m²
电机参数：转矩常数0.0536Nm/A，电阻9.5Ω

这些参数决定了系统的动力学特性，在代码实现时需要精确设置。我建议把这些参数定义为类变量，方便后续调整和实验：

class InvertedPendulumEnv(gym.Env): def __init__(self): self.l = 0.042 # 摆杆长度(m) self.m = 0.055 # 质量(kg) self.J = 1.91e-4 # 转动惯量 self.K = 0.0536 # 转矩常数 self.R = 9.5 # 电阻(Ω) # 其他初始化代码...

2. 构建自定义Gymnasium环境

2.1 环境设计与状态空间

创建自定义环境需要继承gym.Env类并实现几个关键方法。状态空间设计是第一个难点，倒立摆的状态通常包括角度α和角速度α_dot。在我的实现中，我做了两个重要设计决策：

角度归一化处理：将角度范围映射到[-π,π]，避免数值溢出
角速度限制：设置合理的上下限(-15π,15π)，防止训练不稳定

状态空间的定义直接影响学习效果，太小的范围会限制探索，太大则增加学习难度。经过多次实验，我发现以下配置效果不错：

high = np.array([np.pi, 15*np.pi], dtype=np.float32) self.observation_space = gym.spaces.Box(low=-high, high=high, dtype=np.float32)

2.2 动作空间与奖励函数

动作空间设计同样关键。我们可以选择连续动作空间（直接输出电压值）或离散动作空间（几个固定电压档位）。对于初学者，我建议先从离散动作开始，比如{-3V,0V,3V}三个动作，这样更容易实现和调试：

self.discrete_actions = np.linspace(-3.0, 3.0, num=3) self.action_space = gym.spaces.Discrete(3)

奖励函数是指引智能体学习的"指南针"。经过多次尝试，我发现以下形式的奖励函数效果较好：

reward = -(5*alpha**2 + 0.1*alpha_dot**2 + u**2)

这个设计平衡了角度偏差、角速度和能量消耗三个因素。系数5和0.1需要根据具体问题调整，太大可能导致训练不稳定，太小则学习速度慢。

2.3 动力学模型实现

倒立摆的物理模型基于旋转动力学方程。核心是计算角加速度α_ddot，然后通过欧拉法进行数值积分：

alpha_ddot = (1/self.J) * ( self.m * self.g * self.l * np.sin(alpha) - self.b * alpha_dot - (self.K**2/self.R) * alpha_dot + (self.K/self.R) * u ) alpha_dot += alpha_ddot * dt alpha += alpha_dot * dt

这里有几个容易出错的细节：

角度需要周期处理（模2π）
角速度需要限幅
时间步长dt的选择要合理（通常0.005s）

3. DQN算法家族实现与对比

3.1 基础DQN实现

DQN（Deep Q-Network）是深度强化学习的里程碑算法。其核心思想是用神经网络近似Q函数，通过经验回放和目标网络提高稳定性。实现时有几个关键点：

经验回放缓冲区：存储转移样本(状态,动作,奖励,新状态)
目标网络：定期更新的独立网络，提供稳定目标
ϵ-greedy策略：平衡探索与利用

基础DQN的目标值计算如下：

target_max = target_network(next_states).max(1)[0] target_values = rewards + gamma * target_max * (1 - dones)

我在实现时发现，学习率设为0.0001、缓冲区大小200万、批量大小128效果较好。初期训练时，ϵ从1线性衰减到0.05，给智能体足够的探索时间。

3.2 Double DQN改进

基础DQN存在过估计问题，Double DQN通过解耦动作选择和价值评估来解决这个问题。具体实现与DQN的主要区别在于目标值计算：

max_actions = q_network(next_states).argmax(1, keepdim=True) target_values = rewards + gamma * target_network(next_states).gather(1, max_actions).squeeze() * (1 - dones)

在实际测试中，Double DQN通常比基础DQN更稳定，特别是在训练后期。我观察到平均奖励能提高约15%，收敛速度也更快。

3.3 Dueling DQN架构

Dueling DQN通过分离状态价值和动作优势来改进网络结构。这种架构能更好地学习哪些状态有价值，而不必关心每个动作的影响。网络实现如下：

class DuelingQNetwork(nn.Module): def __init__(self, state_dim, action_dim): super().__init__() self.embedding = nn.Sequential( nn.Linear(state_dim, 128), nn.LeakyReLU() ) self.V = nn.Sequential( nn.Linear(128, 64), nn.LeakyReLU(), nn.Linear(64, 1) ) self.A = nn.Sequential( nn.Linear(128, 64), nn.LeakyReLU(), nn.Linear(64, action_dim) ) def forward(self, x): x = self.embedding(x) V = self.V(x) A = self.A(x) return V + (A - A.mean(1, keepdim=True))

在倒立摆任务中，Dueling架构的优势不如在Atari游戏中明显，但仍能带来约5-10%的性能提升，特别是当状态空间较大时。

4. 目标网络更新策略实验

4.1 tau参数的影响

目标网络更新策略对训练稳定性至关重要。传统方法是定期硬更新（τ=1），而更平滑的软更新（τ<1）通常效果更好。我设计了对比实验，τ取值从1.0到0.1：

# 软更新实现 for target_param, local_param in zip(target_network.parameters(), q_network.parameters()): target_param.data.copy_(tau*local_param.data + (1.0-tau)*target_param.data)

实验结果表明，τ=0.4时效果最佳。τ过大（如1.0）导致训练不稳定，τ过小（如0.1）则学习速度太慢。这个结论与理论预期一致，因为适度的软更新能在稳定性和适应性间取得平衡。

4.2 训练曲线分析

通过WandB记录的训练曲线可以清晰看到不同τ值的影响：

τ=1.0：TD loss波动剧烈， episodic_return不稳定
τ=0.4：训练平稳，最终性能最好
τ=0.1：学习速度慢，但后期稳定

一个实用的技巧是记录视频回放，直观观察智能体的学习过程。Gymnasium的渲染功能结合WandB的Video记录非常有用：

frames = [] env = gym.make("InvertedPendulum-v1", render_mode="rgb_array") for _ in range(1000): frames.append(env.render()) # ...执行动作... wandb.log({"video": wandb.Video(np.array(frames), fps=30)})

5. 实战技巧与常见问题

5.1 超参数调优经验

经过多次实验，我总结出以下超参数设置建议：

学习率：0.0001到0.001之间
折扣因子γ：0.95到0.99
目标网络更新频率：1000到10000步
缓冲区大小：至少100万transition
批量大小：128或256

特别需要注意的是，ϵ-greedy策略的参数对初期探索影响很大。我通常设置：

初始ϵ=1
最终ϵ=0.05
探索比例=0.2（总训练步数的20%用于探索）

5.2 调试技巧

当训练效果不佳时，可以检查以下几个方面：

观察初始随机策略的表现，确保环境反馈合理
检查梯度更新是否正常，参数是否有变化
可视化Q值分布，看是否出现异常值
尝试减小学习率或增大批量大小

一个实用的调试技巧是固定随机种子，确保实验可复现：

import random import numpy as np import torch seed = 42 random.seed(seed) np.random.seed(seed) torch.manual_seed(seed) env.action_space.seed(seed)

5.3 性能优化

对于需要大量训练的任务，可以考虑以下优化：

使用向量化环境（多个环境并行）
将状态转换为torch张量后保留在GPU上
预分配经验回放缓冲区内存
使用混合精度训练

在我的实现中，使用8个并行环境能使训练速度提高5-6倍：

from gym.vector import SyncVectorEnv def make_env(): def thunk(): env = InvertedPendulumEnv() env = gym.wrappers.RecordEpisodeStatistics(env) return env return thunk envs = SyncVectorEnv([make_env() for _ in range(8)])

查看全文

http://www.jsqmd.com/news/626446/