当前位置：首页 > news >正文

强化学习入门避坑：从‘曲线拟合’视角彻底搞懂值函数近似

news 2026/5/1 21:41:07

强化学习中的值函数近似：从离散表格到连续泛化的思维跃迁

在传统的强化学习入门教程中，我们往往从离散的表格方法(tabular methods)开始学习Q-learning和Sarsa等经典算法。但当面对现实世界中复杂、高维甚至连续的状态空间时，表格方法立刻暴露出其局限性——存储开销爆炸式增长、泛化能力几乎为零。这时候，值函数近似(Value Function Approximation)技术就像一把钥匙，为我们打开了处理大规模强化学习问题的大门。

1. 为什么我们需要告别表格方法？

想象你正在开发一个自动驾驶系统，车辆感知到的环境状态可能包括：位置坐标(x,y)、速度(v)、周围车辆相对位置、交通信号灯状态等。即使将这些变量适度离散化，状态空间也很容易达到10^6甚至更大的数量级。如果采用传统的Q表格：

存储灾难：假设每个状态-动作对需要8字节存储，仅存储Q表就需要TB级内存
数据效率低下：在如此庞大的状态空间中，绝大多数状态在训练中根本不会被访问到
无法泛化：学习到的某个状态的值无法自动迁移到相似但未访问过的状态

表格方法与函数近似的本质对比：

特性	表格方法	函数近似方法
存储复杂度	O(	S
是否需要完全访问	是	否
泛化能力	无	有
适合场景	小规模离散问题	大规模/连续问题

提示：函数近似的核心思想是用一个参数化函数(如神经网络)来"压缩"Q表，通过调整少量参数来近似表示整个状态空间的值函数。

2. 从曲线拟合理解值函数近似

理解值函数近似最直观的类比就是曲线拟合。假设我们有一组离散的状态值点：

states = [1, 2, 3, 4, 5] values = [1.2, 1.9, 3.1, 3.8, 5.0] # 真实的或估计的状态值

表格法的困境：

需要存储5个独立的值
对未访问状态(如s=1.5)无法给出估计

函数近似的解决方案：

线性拟合：v̂(s,w) = w₁s + w₂
- 只需存储2个参数(w₁,w₂)
- 可以估计任意s的值，包括未访问状态
- 但拟合误差可能较大
多项式拟合：v̂(s,w) = w₁s² + w₂s + w₃
- 存储3个参数
- 拟合更精确但仍有限制
神经网络拟合：
- 理论上可以逼近任何复杂函数
- 参数数量可控(不像表格随状态空间增长)
- 现代深度强化学习的基础

# 神经网络拟合的PyTorch示例 import torch import torch.nn as nn class ValueNetwork(nn.Module): def __init__(self): super().__init__() self.fc1 = nn.Linear(1, 10) # 输入状态维度，隐藏层 self.fc2 = nn.Linear(10, 1) # 输出值 def forward(self, state): x = torch.relu(self.fc1(state)) return self.fc2(x)

3. 值函数近似的算法实现

将函数近似与TD学习结合，我们需要重新思考值更新的过程。传统的TD更新：

Q(s,a) ← Q(s,a) + α[r + γmaxₐ'Q(s',a') - Q(s,a)]

在函数近似框架下，我们不再直接更新Q值，而是调整函数参数w：

定义目标函数： J(w) = 𝔼[(v_π(s) - v̂(s,w))²]
梯度下降更新： w ← w - α∇ₓJ(w) = w + α[v_π(s) - v̂(s,w)]∇ₓv̂(s,w)

关键问题：我们不知道真实的v_π(s)！解决方案：

MC方法：用实际回报Gₜ作为目标
TD方法：用r + γv̂(s',w)作为目标

Sarsa与函数近似结合的伪代码：

初始化参数w for 每个episode: 初始化状态s 选择动作a(基于当前策略和Q̂(s,·,w)) for 每个时间步: 执行a，观察r,s' 选择a'(基于当前策略和Q̂(s',·,w)) # 计算TD目标 y = r + γQ̂(s',a',w) # 更新参数 w ← w + α[y - Q̂(s,a,w)]∇Q̂(s,a,w) s ← s'; a ← a'

4. 深度Q学习(DQN)的突破

DQN将神经网络作为函数近似器引入Q-learning，带来了几个关键创新：

经验回放(Experience Replay)：
- 存储转移样本(s,a,r,s')到回放缓冲区
- 训练时随机采样小批量样本，打破相关性
- 提高数据效率，稳定训练
目标网络(Target Network)：
- 使用独立的目标网络计算TD目标
- 定期更新目标网络参数
- 缓解"移动目标"问题

DQN的核心代码结构：

class DQNAgent: def __init__(self, state_dim, action_dim): self.q_net = QNetwork(state_dim, action_dim) # 主网络 self.target_net = QNetwork(state_dim, action_dim) # 目标网络 self.memory = ReplayBuffer(capacity=10000) def update(self, batch_size): # 从回放缓冲区采样 states, actions, rewards, next_states, dones = self.memory.sample(batch_size) # 计算Q目标和当前Q值 with torch.no_grad(): next_q = self.target_net(next_states).max(1)[0] target_q = rewards + (1-dones)*gamma*next_q current_q = self.q_net(states).gather(1, actions) # 计算损失并更新 loss = F.mse_loss(current_q, target_q) self.optimizer.zero_grad() loss.backward() self.optimizer.step() def update_target(self): # 定期更新目标网络 self.target_net.load_state_dict(self.q_net.state_dict())