当前位置：首页 > news >正文

▲基于Qlearning强化学习和人工势场融合算法的无人机航迹规划matlab仿真

news 2026/6/17 2:03:23

✅1.问题描述

✨2.Q学习算法原理

1️⃣2.1 Q学习更新

2️⃣2.2 奖励函数设计

🔍3.人工势场法原理

🚀4.融合算法的实现

📚5.MATLAB程序

💡6.仿真结果分析

👇7.完整程序下载

✅1.问题描述

无人机航迹规划（UAV Path Planning）是无人机自主导航领域的核心技术之一，其目标是在复杂环境中为无人机规划出一条从起点到目标点的安全、高效飞行路径。传统的航迹规划方法包括A*算法、Dijkstra算法、快速搜索随机树（RRT）等，但这些方法在面对复杂动态环境时存在计算效率低、路径不够平滑等问题。

近年来，强化学习（Reinforcement Learning）尤其是Q学习算法在路径规划中的应用日益广泛。Q学习算法能够通过与环境的交互学习最优策略，具有不依赖环境模型、自适应能力强等优点。然而，单纯使用Q学习算法进行航迹规划时，由于状态空间离散化以及奖励函数设计的局限性，规划出的航线往往存在与静态障碍物发生碰撞的风险。

人工势场法（Artificial Potential Field, APF）是一种经典的局部路径规划方法，通过构建引力场和斥力场引导无人机避开障碍物并趋向目标点。该方法计算简单、实时性好，但存在局部极小值陷阱和目标不可达等固有缺陷。

针对上述问题，本文提出一种融合Q学习算法和人工势场算法的无人机航迹规划方法。该方法首先利用Q学习算法在全局层面规划出一条初始航线，其次根据地图信息统计该航线每个航段内包含的静态障碍物，最后对每个包含障碍物的航段采用改进的人工势场法进行局部重新规划。这种融合策略既发挥了Q学习在全局规划中的优势，又利用了人工势场法在局部避障中的高效性，最终得到一条安全且接近最短的飞行路径。

✨2.Q学习算法原理

Q学习算法是一种无模型(Model-Free)的强化学习算法，属于时序差分(Temporal Difference, TD)学习方法。其核心思想是通过不断与环境交互，学习状态-动作对的价值函数(即Q值)，从而找到最优策略。

Q学习的基本要素包括：

状态空间S：无人机所处位置的离散化表示，将飞行区域栅格化为m×n的网格，每个网格单元代表一个状态。
动作空间A：无人机在每个状态下可执行的动作集合，通常定义为上、下、左、右、左上、右上、左下、右下共8个方向。
奖励函数R(s,a)：无人机在状态s执行动作a后获得的即时奖励，用于引导学习方向。
Q值表Q(s,a)：记录每个状态-动作对的累积期望回报估计值。

1️⃣2.1 Q学习更新

Q学习的核心在于Q值的迭代更新。当无人机在状态 stst 执行动作at后转移到新状态st+1并获得奖励rt时，Q值按如下公式更新：

其中，α∈(0,1]为学习率，控制新信息对旧Q值的更新幅度；γ∈[0,1]为折扣因子，决定未来奖励的重要程度；max⁡a′Q(st+1,a′)表示在下一状态st+1中所有可选动作的最大Q值。

2️⃣2.2 奖励函数设计

合理的奖励函数设计是Q学习成功的关键。针对无人机航迹规划问题，奖励函数定义如下：

其中Rgoal>0为到达目标的高额正奖励，Robs<0和Rboundary<0为碰撞障碍物和越界的惩罚，Rstep<0为每步移动的小额负奖励以鼓励尽快到达目标。

🔍3.人工势场法原理

人工势场法将目标点视为对无人机产生引力的"吸引源"。引力势场函数定义为：

障碍物对无人机产生排斥力。传统斥力势场函数定义为：

传统人工势场法存在目标点附近振荡和局部极小值问题。本文采用改进的斥力函数，引入目标距离调节因子：

无人机所受的合力为引力与所有障碍物斥力之和：

🚀4.融合算法的实现

将Q学习规划的安全航段与人工势场法重新规划的局部路径进行拼接，得到最终完整航线：

对拼接后的路径可进一步使用移动平均或B样条曲线进行平滑处理：

其中w为平滑窗口的半宽度。

📚5.MATLAB程序

% --- 第一阶段：Q学习路径 --- hTitle = title('第一阶段：Q学习全局航线规划','FontSize',14,'Color','b'); hTrail_q = plot(NaN, NaN, 'b-', 'LineWidth',2); hUAV_q = plot(NaN, NaN, 'bs', 'MarkerSize',12, 'MarkerFaceColor','cyan','LineWidth',1.5); for i = 1:size(qPath,1) set(hTrail_q, 'XData', qPath(1:i,2), 'YData', qPath(1:i,1)); set(hUAV_q, 'XData', qPath(i,2), 'YData', qPath(i,1)); drawnow; pause(0.08); end pause(0.8); % --- 第二阶段：融合路径 --- set(hTitle, 'String','第二阶段：融合Q学习+人工势场法 避障重规划','Color','r'); hTrail_f = plot(NaN, NaN, 'r-', 'LineWidth',2.5); hUAV_f = plot(NaN, NaN, 'ro', 'MarkerSize',12, 'MarkerFaceColor','yellow','LineWidth',1.5); % 控制动画帧率，对太密集的路径进行下采样 skipStep = max(1, floor(size(finalPath,1)/150)); animIdx = [1:skipStep:size(finalPath,1), size(finalPath,1)]; animIdx = unique(animIdx); for ii = 1:length(animIdx) i = animIdx(ii); set(hTrail_f, 'XData', finalPath(1:i,2), 'YData', finalPath(1:i,1)); set(hUAV_f, 'XData', finalPath(i,2), 'YData', finalPath(i,1)); drawnow; pause(0.05); end set(hTitle, 'String','航迹规划完成 - Q学习(蓝) vs 融合算法(红)','Color','k'); legend([hTrail_q, hTrail_f, hUAV_f], ... {'Q学习路径','融合算法路径','无人机位置'},... 'Location','northwest','FontSize',10); fprintf('\n===== 仿真完成 =====\n'); fprintf('Q学习路径总长度: %.2f\n', qLen); fprintf('融合算法路径总长度: %.2f\n', fLen); fprintf('路径增加比例: %.1f%%\n', (fLen-qLen)/qLen*100); fprintf('危险航段消除数: %d\n', length(dangerSegments));