当前位置：首页 > news >正文

DQN实战：用Python+gym攻克自动驾驶决策难题

news 2026/3/26 18:55:37

1. 从零理解DQN与自动驾驶决策

第一次听说DQN能用在自动驾驶上时，我正被传统规则式决策系统折磨得焦头烂额。那些if-else规则就像打补丁，加一个特殊场景就要改几十行代码。直到用Python+gym搭建了第一个DQN模型，才真正体会到强化学习的魅力——你只需要定义好奖励机制，算法就能自己摸索出最优策略。

DQN（Deep Q-Network）本质上是Q-learning与深度神经网络的结合。想象教小朋友学骑车：摔倒就是负奖励，平稳前进就是正奖励。经过多次尝试，小朋友会自然学会避开危险动作。DQN也是这样，只不过用神经网络来记忆不同状态下的最佳动作价值。在自动驾驶场景中，状态可能是周围车辆位置，动作则是变道、加减速等决策。

为什么选择gym？这个由OpenAI推出的工具包就像强化学习的"游乐场"，而highway-env扩展包专门模拟了高速公路、环岛等典型驾驶场景。我实测下来发现它有三大优势：一是内置物理引擎比从头写仿真省时90%；二是支持多种观测模式（后文会详细对比）；三是与PyTorch/TensorFlow无缝衔接。对于想快速验证算法的开发者，这简直是量身定制的实验平台。

2. 五分钟搭建自动驾驶试验场

记得第一次配置环境时，我花了半天解决依赖冲突。后来总结出这个 bullet-proof 的安装方案：

# 创建纯净的Python3.8环境（避免版本冲突） conda create -n highway python=3.8 -y conda activate highway # 安装gym核心+可视化工具 pip install gym matplotlib ipython # 安装定制化驾驶环境 pip install git+https://github.com/eleurent/highway-env

安装完成后，用这段代码快速验证环境是否正常：

import gym import highway_env env = gym.make('highway-v0') obs = env.reset() for _ in range(50): action = 1 # 保持当前车道 obs, reward, done, info = env.step(action) env.render()

如果看到下图所示的灰色高速公路和蓝色车辆，说明环境配置成功：

环境配置常见坑点：

使用Python3.6+版本（低版本会报语法错误）
出现"Box2D dependency"错误时，先运行pip install swig
渲染窗口黑屏可能是pyglet版本问题，尝试pip install pyglet==1.5.11

3. 驾驶场景的数学建模技巧

在highway-env中，状态(observation)定义直接影响训练效果。经过20+次实验对比，我总结出三种观测模式的适用场景：

观测类型	数据结构	优点	缺点	适用场景
Kinematics	矩阵[5,7]	计算量小(适合初学者)	丢失视觉信息	简单决策任务
Grayscale Image	图像[W,H]	保留空间关系	需CNN处理耗时增加3倍	端到端感知决策
Occupancy Grid	三维张量[W,H,F]	平衡计算量与信息量	需要调参	复杂多车交互

推荐新手从Kinematics开始，它的7个特征分别是：

presence：车辆是否存在(0或1)
x：横向相对位置
y：纵向相对位置
vx：横向速度
vy：纵向速度
cos_h：航向角余弦值
sin_h：航向角正弦值

这是我优化过的环境配置参数，能提升30%训练效率：

config = { "observation": { "type": "Kinematics", "vehicles_count": 5, # 观测前5辆最近的车 "features": ["presence", "x", "y", "vx", "vy", "cos_h", "sin_h"], "absolute": False, # 使用相对坐标 "order": "sorted" # 按距离排序 }, "policy_frequency": 5, # 控制频率提升到5Hz "collision_reward": -5, # 加大碰撞惩罚 "high_speed_reward": 0.4 # 适度奖励高速行驶 }

4. 手把手实现DQN决策模型

基于PyTorch的DQN实现包含三个关键组件：

4.1 神经网络架构设计

经过多次迭代验证，这个网络结构在速度和效果间取得平衡：

import torch.nn as nn class DQN(nn.Module): def __init__(self, input_dim=35, output_dim=5): super().__init__() self.fc1 = nn.Linear(input_dim, 128) self.fc2 = nn.Linear(128, 128) self.fc3 = nn.Linear(128, output_dim) def forward(self, x): x = torch.relu(self.fc1(x)) x = torch.relu(self.fc2(x)) return self.fc3(x)

关键细节：

输入层35节点（5辆车×7特征）
两个隐藏层提升特征提取能力

输出层5节点对应5种动作：

ACTIONS = { 0: 'LANE_LEFT', 1: 'IDLE', 2: 'LANE_RIGHT', 3: 'FASTER', 4: 'SLOWER' }

4.2 经验回放机制

直接连续训练会导致"灾难性遗忘"，这是我改进的经验回放实现：

from collections import deque import random class ReplayBuffer: def __init__(self, capacity=10000): self.buffer = deque(maxlen=capacity) def push(self, state, action, reward, next_state, done): self.buffer.append(( torch.FloatTensor(state), torch.LongTensor([action]), torch.FloatTensor([reward]), torch.FloatTensor(next_state), torch.FloatTensor([done]) )) def sample(self, batch_size): batch = random.sample(self.buffer, batch_size) states, actions, rewards, next_states, dones = zip(*batch) return ( torch.stack(states), torch.stack(actions), torch.stack(rewards), torch.stack(next_states), torch.stack(dones) )

4.3 训练流程优化

这个训练框架加入了ε衰减和双网络更新：

def train(env, model, target_model, optimizer, buffer, episodes=1000, batch_size=64, gamma=0.95, eps_start=1.0, eps_end=0.01, eps_decay=0.995): eps = eps_start for ep in range(episodes): state = env.reset() total_reward = 0 while True: # ε-贪婪策略选择动作 if random.random() < eps: action = random.randint(0, 4) else: with torch.no_grad(): q_values = model(torch.FloatTensor(state)) action = q_values.argmax().item() # 执行动作 next_state, reward, done, _ = env.step(action) total_reward += reward # 存储经验 buffer.push(state, action, reward, next_state, done) # 训练阶段 if len(buffer) >= batch_size: states, actions, rewards, next_states, dones = buffer.sample(batch_size) current_q = model(states).gather(1, actions) next_q = target_model(next_states).max(1)[0].detach() target = rewards + gamma * next_q * (1 - dones) loss = nn.MSELoss()(current_q.squeeze(), target) optimizer.zero_grad() loss.backward() optimizer.step() state = next_state if done: break # 更新目标网络 if ep % 10 == 0: target_model.load_state_dict(model.state_dict()) # ε衰减 eps = max(eps_end, eps_decay*eps) print(f"Episode {ep}, Reward: {total_reward:.2f}, Eps: {eps:.3f}")

5. 模型调优与效果分析

训练过程中我记录了三个关键指标的变化：

5.1 碰撞率下降曲线

初期碰撞率高达60%，随着训练逐渐降至8%左右。注意图中出现的波动期，这是算法在探索新策略的表现。

5.2 平均奖励增长

奖励从初始的-3逐步提升到+2.5，说明模型学会了平衡速度与安全。

5.3 典型决策案例分析

观察训练好的模型在复杂场景的表现：

cut-in场景：前车突然变道，模型会先减速再考虑变道
拥堵场景：自动保持安全距离，不会频繁变道
高速巡航：在无车路段能保持最高限速

这些策略完全来自reward函数的引导，没有人为硬编码规则。我常用的reward组合公式：

reward = 0.3*speed_norm + 0.1*lane_center - 2.0*collision - 0.02*lane_change

6. 工程实践中的进阶技巧

6.1 状态预处理技巧

原始观测数据可能存在量纲差异，这个标准化处理能提升20%收敛速度：

def normalize_obs(obs): # 位置归一化到[-1,1] obs[..., 1:3] = (obs[..., 1:3] - 50) / 50 # 速度归一化到[-1,1] obs[..., 3:5] = obs[..., 3:5] / 20 return obs

6.2 混合探索策略

传统ε-greedy在后期效率低，改用基于不确定性的探索：

def noisy_action(q_values, eps): if random.random() < eps: # 给Q值添加高斯噪声 noise = torch.randn_like(q_values) * 0.1 return (q_values + noise).argmax() else: return q_values.argmax()

6.3 实时可视化调试

这个代码片段可以实时显示DQN的决策依据：

def visualize_decision(model, state): with torch.no_grad(): q_values = model(torch.FloatTensor(state)) plt.bar(['左变道','保持','右变道','加速','减速'], q_values.numpy()) plt.title('各动作Q值分布') plt.show()

在实际项目中，我还发现几个值得注意的现象：