当前位置：首页 > news >正文

车载边缘AI网络中的动态剪枝与强化学习优化

news 2026/7/17 10:32:31

1. 算法背景与核心挑战

在车载边缘AI网络（VEANET）中，自动驾驶车辆（AVs）与路侧单元（RSUs）之间的资源分配问题本质上是一个多领导者-多跟随者（MLMF）Stackelberg博弈。传统强化学习方法面临三大核心挑战：

探索效率低下：在高维策略空间中，智能体容易陷入局部最优，难以找到全局均衡解。例如在带宽定价场景中，RSU若仅采用高斯噪声探索，可能无法发现"降价抢占市场份额"这类非直觉策略。
模型冗余严重：典型的多智能体近端策略优化（MAPPO）网络包含数百万参数，但在实际决策中，仅需约15%的神经元参与有效计算。我们在NVIDIA Jetson Orin Nano平台实测发现，原始模型推理延迟高达83ms，无法满足车载场景的实时性要求。
动态环境适应差：车辆移动导致网络拓扑持续变化，固定结构的神经网络难以快速调整策略。当新RSU加入时，传统方法需要完整重训练，收敛时间可能超过环境变化周期。

关键发现：通过分析神经元激活模式，我们发现不同博弈阶段（如价格战、资源过剩等）会激活网络的不同子结构。这为动态剪枝提供了理论依据。

2. 算法设计原理

2.1 基于贝叶斯惊喜度的探索机制

2.1.1 核心数学形式化

定义智能体k在时刻t的个体探索激励为： $$ r^{t}{k,int} = D{KL}(p(z^{t+1}|s^t,a^t) \parallel p(z^{t+1}|s^t,a^t_{-k})) $$ 其中$z^t$为潜在状态变量，$a^t_{-k}$表示其他智能体的联合动作。该指标量化了单个智能体行为对全局状态转移的影响程度。

2.1.2 CVAE实现细节

采用三支路条件变分自编码器架构：

编码器$q_{\phi_1}$：输入完整状态转移对$(s^t,a^t,s^{t+1})$
反事实编码器$q_{\phi_2}$：输入部分动作$(s^t,a^t_{-k},s^{t+1})$
共享解码器$p_{\phi_3}$：重构下一状态$s^{t+1}$

训练目标函数： $$ \mathcal{F} = -\mathbb{E}[D_{KL}(q_{\phi_1}\parallel p_{\phi_1})] - \mathbb{E}[D_{KL}(q_{\phi_2}\parallel p_{\phi_2})] + \mathbb{E}[\log p_{\phi_3}(s^{t+1}|z)] $$

2.1.3 混合奖励设计

$$ r^{t}{+,k} = r^{t}{k} + c_1 \cdot r^{t}{k,int} $$ 其中$c_1$采用余弦退火调度： $$ c_1(t) = \eta{max} \cdot \frac{1 + \cos(\pi t/T)}{2} $$

2.2 自适应动态剪枝方案

2.2.1 神经元重要性度量

对于第l层的第n个神经元，定义时间窗衰减重要性： $$ S^{t,(l)}n = \sum{\tau=t-t_w}^t \gamma^{t-\tau}_n \cdot \Omega^{\tau,(l)}_n \cdot m^{\tau,(l)}n $$ 其中$\Omega^{(l)}n = (\sum_m \theta^2{m,n}) \cdot (\sum_o \theta^2{o,m})$反映神经元连接强度。

2.2.2 动态阈值调整

剪枝阈值$\psi$随探索强度自适应变化： $$ \psi = (\sum_n \sum_l S^{(l)}n) \cdot p_t $$ $$ p_t = \min(p{t1} \cdot (1+\phi r'{k,int}), p{t2}) $$

其中$r'{k,int}$为JS散度归一化后的探索激励： $$ r'{k,int} = D_{JS}(p \parallel q) = \frac{1}{2}D_{KL}(p \parallel \frac{p+q}{2}) + \frac{1}{2}D_{KL}(q \parallel \frac{p+q}{2}) $$

3. 实现与优化技巧

3.1 网络架构设计

class TinyActor(nn.Module): def __init__(self, obs_dim, act_dim): super().__init__() self.fc1 = nn.Linear(obs_dim, 64) self.fc2 = nn.Linear(64, 64) self.fc3 = nn.Linear(64, act_dim) self.mask1 = nn.Parameter(torch.ones(64)) self.mask2 = nn.Parameter(torch.ones(64)) def forward(self, x): x = F.relu(self.fc1(x) * self.mask1) x = F.relu(self.fc2(x) * self.mask2) return torch.sigmoid(self.fc3(x))