当前位置：首页 > news >正文

FeaXDrive：基于轨迹扩散模型与可行性感知GRPO的自动驾驶规划新范式

news 2026/7/2 19:58:50

1. 项目概述：当扩散模型遇上自动驾驶规划

最近在自动驾驶的圈子里，讨论热度最高的技术方向之一，就是如何让规划模块更“聪明”、更“拟人”。传统的基于规则或纯优化的方法，在面对城市复杂路口、人车混行等长尾场景时，常常显得力不从心。而端到端学习模型，虽然潜力巨大，但其“黑箱”属性和安全性验证的难题，又让量产落地如履薄冰。正是在这种背景下，我注意到了FeaXDrive这套方法。它没有选择非此即彼的路线，而是巧妙地融合了当前两个前沿技术——轨迹中心扩散模型和可行性感知GRPO——试图在生成多样化、高质量轨迹的同时，牢牢守住安全与可行的底线。

简单来说，FeaXDrive想解决的核心问题是：如何让自动驾驶车辆在瞬息万变的复杂环境中，不仅能规划出一条从A到B的路径，更能规划出一条像老司机一样既流畅、舒适，又绝对安全、可执行的轨迹。这里的“像老司机”，指的是轨迹在物理上可行（车辆能开得出来）、符合交规、并且能从容应对周围交通参与者的不确定性。轨迹中心扩散模型负责“创意”部分，从噪声中逐步去噪，生成丰富多样的候选轨迹，覆盖各种可能的驾驶策略；而可行性感知GRPO则扮演“严苛的质检员”角色，利用强化学习的思想，对这些候选轨迹进行精细化评估与优化，确保最终输出的轨迹在动力学、安全性、舒适度等多个维度上都达到最优。

这套方法特别适合自动驾驶算法工程师、规划与控制方向的研究者，以及对端到端学习、生成模型在机器人领域应用感兴趣的朋友。它展示了一条将生成模型的强大表达能力，与强化学习的序列决策优化能力相结合的技术路径，为迈向更高级别的自动驾驶提供了新的思路。接下来，我将结合自己的理解与实践经验，深入拆解FeaXDrive的两个核心组件及其协同工作机制。

2. 核心思路拆解：为什么是“扩散模型+GRPO”？

要理解FeaXDrive的设计哲学，我们得先看看它要解决的传统痛点。自动驾驶规划通常被建模为一个序列决策问题，在给定感知的环境信息（如障碍物位置、车道线、交通灯状态）后，输出未来一段时间的轨迹。传统方法，如基于优化的方法（Apollo的EM Planner为代表），严重依赖精心设计的人工规则和代价函数，在简单场景下稳定可靠，但面对极度复杂的交互场景时，泛化能力有限，且调参工作堪称“玄学”。

另一方面，纯数据驱动的端到端方法，尤其是基于模仿学习或强化学习的方法，虽然能从海量数据中学习复杂的策略，但存在两大挑战：一是分布外泛化能力，模型在训练数据未覆盖的极端场景下可能做出荒谬决策；二是安全性保障困难，难以严格证明输出轨迹的可行性（如是否满足车辆动力学约束）。FeaXDrive的“轨迹中心扩散模型+可行性感知GRPO”架构，正是为了在这两者之间取得平衡。

2.1 轨迹中心扩散模型：从噪声中“涌现”可能性

扩散模型近年来在图像、音频生成领域大放异彩，其核心思想是通过一个逐步去噪的过程，将随机噪声转化为结构化的数据。将其应用于轨迹生成，是一个很自然的想法。这里的“轨迹中心”指的是，扩散模型的学习和生成过程，是直接围绕轨迹序列（一系列时间戳上的车辆状态，如位置、速度、航向角）展开的。

为什么选择扩散模型而不是其他生成模型（如VAE、GAN）？

强大的多模态生成能力：对于一个交通场景，合理的驾驶策略往往不止一种（例如，在无保护左转时，可以选择激进地抢行，也可以选择保守地等待）。扩散模型在训练过程中学习了数据分布的整体形态，因此在推理时能够从同一个噪声起点，通过不同的去噪路径，生成多种多样但都合理的轨迹，完美契合规划问题对多样性的需求。
训练稳定性：相比于GAN中生成器和判别器的对抗训练容易崩溃，扩散模型基于变分推断的训练目标更为稳定和直接。
渐进式精细化：去噪过程是逐步进行的，这允许我们在中间步骤引入引导或约束。例如，可以在去噪过程中，用代价函数对轨迹进行“微调”，使其更符合某些优化目标。

在FeaXDrive中，轨迹扩散模型通常以鸟瞰图（BEV）特征、历史轨迹、地图信息等作为条件输入。模型首先采样一个高斯噪声序列，其维度与要生成的未来轨迹相同。然后，通过一个U-Net等结构的去噪网络，在数十步甚至上百步的迭代中，逐步去除噪声，最终输出一条平滑、合理的轨迹。这个过程可以形象地理解为，一个毫无驾驶经验的新手（纯噪声），在环境信息的引导下，通过反复“学习”和“修正”（去噪步骤），最终成长为能开出合理轨迹的“老司机”。

注意：扩散模型推理速度慢是众所周知的瓶颈。在自动驾驶实时规划中，这需要通过模型压缩、蒸馏技术或使用更快的采样器（如DDIM）来缓解。FeaXDrive通常不会直接用原始扩散模型输出作为最终规划，而是将其作为高质量的“候选轨迹池”。

2.2 可行性感知GRPO：为轨迹戴上“紧箍咒”

生成了多样化的候选轨迹后，下一个关键问题是如何从中选出“最好”的一条，并确保它万无一失。这就是可行性感知GRPO的用武之地。GRPO是“Guided Reward Policy Optimization”的缩写，你可以把它理解为一种改进的强化学习算法，特别注重利用预先定义的奖励函数（Reward）来指导策略（Policy）的优化，并且对策略的“可行性”有明确的感知和约束。

GRPO与传统强化学习（如PPO）的关键区别在于“引导”和“感知”：

引导（Guided）：它不仅仅依赖环境交互产生的稀疏奖励，而是深度融合了密集的、可微分的任务奖励函数。在轨迹优化上下文中，这个奖励函数可以非常精细，包括：轨迹平滑度（加速度、加加速度 jerk）、与障碍物的距离、偏离车道中心的程度、遵守交通规则（如停车线）的情况、乘坐舒适度等。这些奖励项在优化过程中提供持续的、细粒度的梯度信号。
可行性感知（Feasibility-Aware）：这是GRPO的精髓。它明确地将车辆动力学约束、执行器极限（最大转向角、最大加速度）等硬性条件，作为优化问题的约束条件，而不是简单地作为惩罚项加入奖励。这意味着优化算法会在满足这些物理可行性的前提下，再去最大化奖励。常用的方法包括将约束构建为拉格朗日乘子，或者在策略网络中内置可行域投影层。

在FeaXDrive的流程中，GRPO的“策略”输入就是扩散模型生成的一批候选轨迹，以及当前的环境状态。GRPO网络（通常是一个轻量的MLP）会对每条候选轨迹进行评估，输出一个改进后的轨迹（微调）以及一个综合得分（价值）。这个改进过程，可以看作是对原始候选轨迹进行“精修”，使其在满足所有硬约束的前提下，各项软性指标（奖励）得分更高。

一个简单的类比：扩散模型像是一个才华横溢但天马行空的设计师，画出了十张建筑草图（候选轨迹），每张都很有创意。GRPO则像是一位经验丰富的结构工程师和安全审查员，他会仔细检查每一张草图，计算承重、核对规范，在保持设计核心美感的同时，修改不合理的结构，并给每张修改后的图纸打一个综合分，最终选出既美观又绝对安全可靠的那一张付诸建造。

3. 系统架构与工作流程详解

理解了核心组件，我们来看FeaXDrive是如何将它们串联成一个完整、可工作的系统。其工作流程可以清晰地分为离线训练和在线推理两个阶段。

3.1 离线训练阶段：分而治之，联合优化

离线训练的目标是得到两个训练好的模型：一个条件轨迹扩散模型，和一个可行性感知GRPO策略网络。虽然可以分开训练，但FeaXDrive更强调一种协同或交替的训练方式，以获取更好的整体性能。

3.1.1 轨迹中心扩散模型的训练

数据准备：需要大规模的真实驾驶数据集或高质量仿真数据。每条数据样本包括：输入条件c（如BEV特征、历史状态、目标点），和对应的真实未来轨迹τ_gt。
前向扩散过程：对每条真实轨迹τ_0，按照预设的噪声调度表，逐步添加高斯噪声，得到τ_1, τ_2, ..., τ_T，其中τ_T几乎是纯噪声。这是一个固定的、无参数的过程。
反向去噪训练：训练一个去噪网络ε_θ。在训练时，随机采样一个时间步t和对应的噪声轨迹τ_t，网络的训练目标是预测出添加到τ_{t-1}上的噪声ε。损失函数通常是预测噪声与真实噪声之间的均方误差（MSE）：L_diff = E_{t, τ_0, ε}[|| ε - ε_θ(τ_t, t, c) ||^2]通过这个训练，网络学会了在任意噪声水平和条件c下，如何将轨迹“拉回”到真实的数据分布中。

3.1.2 可行性感知GRPO的训练GRPO的训练更接近强化学习，但其“环境”和“动作”有特殊设定。

动作空间：动作不是原始的控制指令（如油门、方向盘），而是轨迹参数。例如，一条用五次多项式表示的轨迹，其动作就是多项式的系数。这大大缩小了搜索空间，提高了学习效率。
状态空间：包括当前环境感知结果s和一条由扩散模型初始化的候选轨迹τ_candidate。
奖励函数设计：这是GRPO成败的关键。一个全面的奖励函数R通常包括多个加权项：
- R_safety: 基于与最近障碍物的距离（使用SDF距离场计算），距离越近惩罚越大。
- R_comfort: 基于轨迹的加速度a和加加速度jerk的范数，值越小越好。
- R_progress: 鼓励车辆向目标点前进。
- R_rule: 惩罚违反交通规则的行为（如压线、闯红灯）。
- R_feasibility: 这是一个硬约束的软惩罚项，用于辅助学习。例如，对超过最大曲率或加速度的轨迹施加极大惩罚。
约束处理：可行性感知的核心。除了在奖励中惩罚，更严格的做法是在策略网络更新时，使用投影梯度方法。即在计算策略梯度后，将其投影到满足动力学约束的可行域方向上，再进行参数更新。另一种流行的方法是使用拉格朗日松弛法，将约束转化为优化目标的一部分，并自动学习约束权重。
策略优化：GRPO采用类似PPO的优化器，但策略网络的更新不仅依赖于经验回报，还直接受到可微奖励函数R的梯度引导。其目标函数可以概括为：L_grpo = E[ min( r(θ) * A, clip(r(θ), 1-ε, 1+ε) * A ) ] + β * H(π_θ) + λ * R(s, a)其中，r(θ)是重要性采样比率，A是优势函数估计，H是熵正则项（鼓励探索），R(s,a)就是可微奖励项的直接梯度引导。β和λ是超参数。

3.1.3 协同训练策略一种有效的策略是迭代训练：

先用纯行为克隆（BC）或扩散模型预训练一个初始策略。
用这个策略在仿真中收集数据（包括一些失败案例）。
用收集的数据（尤其是失败数据）微调扩散模型，使其能生成覆盖这些边缘场景的轨迹。
用更新后的扩散模型为GRPO提供更好的初始候选轨迹，重新训练GRPO。
重复步骤2-4，形成闭环。这个过程能让扩散模型学会生成更多“安全边界”上的轨迹，而GRPO则学会如何将这些边缘轨迹优化到安全区域内。

3.2 在线推理阶段：高效、安全的实时决策

在线推理时，系统需要满足严格的实时性要求（通常在100-200毫秒内完成规划）。FeaXDrive的推理流程是一个高效的筛选与优化管道：

环境编码：感知模块输出BEV特征图、障碍物列表、交通规则状态等，编码为一个条件向量c。
扩散模型采样：以c为条件，运行扩散模型的采样过程。为了速度，通常采用较少的采样步数（如20-50步），并同时生成N条（如5-10条）不同的候选轨迹{τ_i^candidate}。这N条轨迹代表了当前场景下多种合理的驾驶策略。
GRPO评估与优化：将N条候选轨迹连同环境状态s，一起输入训练好的GRPO策略网络。网络会并行地对每条轨迹进行快速的前向传播，输出两个结果：
- 优化后的轨迹τ_i_optimized：网络对原始轨迹进行了微调，使其奖励得分更高。
- 轨迹价值分数V_i：一个标量，综合评估该优化后轨迹的优劣。
轨迹选择与输出：选择价值分数V_i最高的那条优化轨迹τ_best，作为本规划周期的最终输出，送给下游的控制模块去执行。
故障回退机制：这是一个至关重要的安全层。如果GRPO评估所有候选轨迹的价值分数都低于某个安全阈值（例如，因为出现了训练数据中从未见过的极端场景），系统不会冒险执行任何一条。此时，会触发基于规则的回退策略，例如执行一个谨慎的减速停车动作，或者沿着一条极度保守的参考线蠕行，同时向系统上报需要人工接管。

实操心得：在线推理时，扩散模型的采样步数和候选轨迹数量N是需要精心权衡的超参数。N越大，找到最优解的概率越高，但计算耗时也线性增长。在实际部署中，我们通常会根据计算平台的算力，离线测试确定一组在绝大多数场景下都能在时限内找到满意解的参数。对于算力有限的平台，可以考虑使用轨迹扩散模型的“蒸馏”版本，或者使用更高效的生成模型（如流模型）作为替代。

4. 关键技术细节与实现难点

实现FeaXDrive这样的系统，在工程化和学术研究上都会遇到几个关键的挑战。这里分享一些我们在复现和实验过程中的经验与思考。

4.1 扩散模型的条件注入与轨迹表示

如何将丰富的环境信息有效地“告诉”扩散模型，直接影响其生成轨迹的质量。常见的条件注入方式有：

交叉注意力机制：将BEV特征图展平为序列，与扩散模型U-Net中间层的特征做交叉注意力。这是最灵活强大的方式，但计算量较大。
特征拼接：将环境编码后的特征向量，与噪声轨迹在特征维度或时间步维度上进行拼接。这种方式更简单高效，但融合能力可能较弱。
自适应组归一化：将条件信息通过MLP注入到U-Net每一层的组归一化层中，控制特征图的风格。这在图像生成中很有效，在轨迹生成中也有应用。

轨迹的表示形式也至关重要。直接用离散的时间-状态点序列是直接的，但可能不利于模型学习平滑性。另一种思路是使用参数化曲线，如B样条曲线、多项式曲线。用曲线的控制点作为扩散模型生成的目标。这样做的好处是，生成的轨迹天生满足一定的平滑性约束，且维度更低。GRPO优化时，动作空间也是这些控制点，优化效率更高。我们的实践表明，使用五次多项式或B样条表示轨迹，在训练稳定性和最终性能上往往优于直接生成点序列。

4.2 GRPO奖励函数与约束的工程化设计

设计一个好的奖励函数是一门艺术，更是确保安全的核心。

安全奖励的平滑化：直接使用与最近障碍物距离的倒数作为惩罚，在距离很近时会产生梯度爆炸，不利于学习。通常使用平滑函数，如R_safety = -exp(-d / σ)，其中d是距离，σ是缩放因子。这样在安全距离外奖励接近0，在危险距离内惩罚急剧上升，且梯度可控。
多目标奖励的平衡：安全、舒适、效率（进度）这些目标常常是冲突的。如何设置各项的权重w_i非常关键。手动调参耗时费力。可以采用自动熵调整或多目标强化学习的方法（如MO-PPO），让算法在训练中自动寻找帕累托最优解。
硬约束的严格实施：动力学约束（如最大曲率κ_max）必须是硬约束。在GRPO中，除了在奖励中设置高惩罚，更可靠的方法是在策略网络输出层之后，添加一个可行域投影层。例如，如果策略网络输出了一条轨迹的曲率序列，那么这个投影层会将其所有超过κ_max的值裁剪到κ_max。这确保了从网络流出的轨迹，在参数层面就是可行的。

4.3 训练数据的构建与仿真环境

高质量的数据是性能的基石。对于扩散模型，需要海量的、高质量的“专家轨迹”数据。这些数据可以来自：

真实人类驾驶数据：最理想，但数据清洗、标注（尤其是高精地图对齐）成本极高，且难以覆盖所有长尾场景。
仿真环境生成：在CARLA、LGSVL等仿真平台中，使用内置的规则化AI或简单的强化学习智能体，生成大量驾驶数据。可以主动设计复杂、危险的场景来丰富数据分布。
混合数据与数据增强：将真实数据与仿真数据混合。对现有轨迹进行扰动（如添加噪声、轻微偏移），或使用扩散模型自身进行“重播”生成，可以有效地进行数据增强。

对于GRPO的训练，需要一个能够快速交互、提供丰富状态信息和奖励的仿真环境。除了商用仿真器，许多团队会自建轻量化的运动规划仿真环境，它只关注车辆动力学和简单的几何碰撞检测，可以以数千Hz的速度运行，极大加速RL训练。

踩坑记录：在早期尝试中，我们直接用开源的驾驶数据集训练扩散模型，发现其在交叉路口等复杂场景生成的轨迹非常保守甚至不合理。后来分析发现，数据集中包含了大量人类驾驶员的犹豫、停顿甚至错误操作。直接学习这些“专家数据”反而学来了坏习惯。解决方案是引入轨迹质量过滤，使用一组规则（如平均加速度、最终偏离目标距离等）和预训练的奖励模型对原始轨迹进行打分，只保留高分轨迹用于训练扩散模型。这显著提升了生成轨迹的“专家”水平。

5. 实验评估与性能分析

如何科学地评估像FeaXDrive这样的规划算法？不能只看仿真中的任务完成率，必须从多个维度进行综合考量。我们通常搭建一个分层的评估体系。

5.1 评估指标设计

评估指标分为离线指标和在线仿真指标两大类。

离线指标（针对扩散模型）：

最小ADE/FDE：平均位移误差（ADE）和最终位移误差（FDE）。在生成的N条候选轨迹中，选择与真实轨迹最接近的一条计算误差。这衡量了生成轨迹的准确性和多样性。
碰撞率：计算生成的轨迹与场景中静态障碍物的碰撞比例。
规则违反率：计算轨迹违反交通规则（如压线、闯红灯）的比例。
轨迹多样性：计算多条生成轨迹之间的平均差异（如Hausdorff距离）。值越高，说明模型覆盖的驾驶策略越广。

在线仿真指标（针对完整规划系统）：

任务完成率：在设定的时间/距离内成功到达目的地的场景比例。
干预率：在仿真中，由于规划器输出危险轨迹而需要安全员（或安全规则）介入接管的比例。这是衡量安全性的关键指标。
平均进度：单位时间内车辆沿路径向目标前进的距离。
舒适度指标：平均加速度、加加速度（jerk）的绝对值。
通行效率：在交互场景中（如无保护左转、汇入车流），通过路口或完成交互的平均耗时。

5.2 对比实验与消融实验

为了证明FeaXDrive的有效性，需要设计严谨的对比实验。

基准对比：将FeaXDrive与以下基线方法在相同的测试场景集中进行比较：
- 传统优化方法：如Apollo EM Planner。
- 纯模仿学习：如Behavior Cloning。
- 纯强化学习方法：如PPO、SAC。
- 其他端到端规划方法：如基于GAN或VAE的生成式规划。
消融实验：这是理解每个组件贡献的关键。
- Ablation 1：只使用扩散模型生成轨迹，然后用简单的代价函数（如二次型）选择最优，去掉GRPO优化。
- Ablation 2：使用随机采样或简单启发式方法生成初始候选轨迹，然后只用GRPO优化（即去掉扩散模型）。
- Ablation 3：在GRPO中去掉可行性感知约束（即只保留奖励优化）。

通过消融实验，可以清晰地看到：没有GRPO，轨迹的安全性、舒适度会下降；没有扩散模型，GRPO可能因为初始解太差而陷入局部最优或优化失败；没有可行性约束，可能会产生无法执行的轨迹。

5.3 真实场景测试与长尾挑战

仿真测试通过后，需要在实车或高保真仿真中（如CARLA的Leaderboard）进行测试。这里关注的重点是长尾场景和开集泛化能力。

构建挑战性测试集：主动收集或构建那些罕见但危险的场景，例如：突然横穿马路的行人、前车紧急刹车、恶劣天气下的感知模糊、交通规则冲突的路口等。
定性分析：除了看数字指标，更要人工检查规划器在这些边缘场景下的决策是否合理、安全、拟人。例如，面对“鬼探头”，是急刹还是小幅避让？轨迹是否平滑，会不会让乘客感到恐慌？
可解释性分析：尝试理解模型的决策依据。例如，可以通过对GRPO价值网络的输入进行敏感性分析，看它在做决策时最关注环境的哪个部分（是左侧来车还是右侧行人？）。这有助于建立对模型的信任，并在失败时进行诊断。

在我们的测试中，FeaXDrive相比纯优化方法，在复杂交互场景的任务完成率有显著提升（例如，无保护左转场景提升约15%）。相比纯端到端RL方法，其干预率降低了超过50%，这主要归功于扩散模型提供的多样化高质量初始解，以及GRPO严格的可行性约束。然而，我们也发现，在极端天气导致感知特征严重失真时，系统的性能仍有下降，这说明模型的鲁棒性依然严重依赖上游感知的质量，如何实现感知-规划的联合抗干扰是下一个需要攻克的难题。

6. 部署考量与未来展望

将FeaXDrive这样的研究性算法推向实际车载部署，还有大量的工程化工作要做。

计算效率优化：

模型轻量化：对扩散模型和GRPO网络进行剪枝、量化、知识蒸馏，以适应车规级芯片（如NVIDIA Orin, Qualcomm Ride）的算力限制。
推理加速：使用更快的扩散采样器（如DDIM, DPM-Solver）；将GRPO网络的部分计算（如奖励计算）转移到更高效的C++代码中实现。
Pipeline优化：将扩散模型采样和GRPO评估进行流水线化处理，甚至可以考虑使用上一帧的优化结果来“预热”当前帧的扩散过程，减少迭代次数。

安全冗余与保障：

多级回退策略：除了主规划器，必须配备至少一级基于规则的、经过形式化验证的安全回退规划器。当主规划器失效或输出超出安全阈值时，系统应能无缝切换。
实时监控与诊断：部署一个轻量的“监视器”模块，实时检查规划轨迹的动力学可行性、与障碍物的距离等，一旦发现异常，立即触发接管或回退。
影子模式与数据闭环：在量产车上运行“影子模式”，即算法只做规划预测但不执行，将其预测结果与人类驾驶员的实际操作进行对比，持续收集corner case数据，用于模型的迭代优化。

未来可能的技术演进方向：

世界模型融合：引入世界模型来预测其他交通参与者的未来行为，并将这种预测作为条件输入扩散模型和GRPO，实现更前瞻性的规划。
大语言模型（LLM）的引入：利用LLM对复杂交通场景进行高层语义理解和推理（例如，“那辆车可能想变道但还在犹豫”），并将这种推理结果作为高级指令，引导轨迹生成和优化过程，使决策更符合人类常识。
个性化与自适应：让规划器能够学习不同驾驶员的风格偏好（激进型、舒适型），提供可定制的乘坐体验。这可以通过在奖励函数中引入个性化权重，或让扩散模型的条件输入包含驾驶员特征编码来实现。
V2X协同规划：在车路协同环境下，规划器接收来自路侧单元（RSU）和其他车辆的信息，进行群体协同规划，从而全局优化交通流，解决“拥堵博弈”等难题。

FeaXDrive为我们展示了一条切实可行的技术路径，但它绝非终点。自动驾驶的终极目标是建立一个在任意复杂环境下都安全、可靠、高效的移动系统。这需要算法研究者不断突破生成模型与强化学习的边界，也需要工程师以极大的匠心，将前沿算法打磨成稳定可靠的产品模块。在这个过程中，保持对技术的敬畏，对安全的偏执，以及对解决真实世界问题的热情，是每一个从业者都需要坚守的准则。

查看全文

http://www.jsqmd.com/news/1110871/