当前位置：首页 > news >正文

▲基于QLearning算法的无人机自组网AODV稳定路由matlab仿真

news 2026/6/15 6:32:55

1.引言

2.Q-Learning算法原理

3.基于QLearning算法的无人机自组网AODV稳定路由

3.1 初始化网络环境

3.2 构建Q值表

3.3 迭代训练

3.4 更新网络拓扑

3.5 路由决策

4.Matlab仿真程序

5.仿真结果分析

5.完整程序下载

1.引言

无人机自组网(UANET)是由多架无人机(UAV)构成的移动自组织网络。由于无人机高速移动，网络拓扑快速变化，传统AODV(Ad-hoc On-demand Distance Vector)路由协议仅以跳数作为路由选择度量，无法感知链路质量与稳定性，导致频繁断链和路由重建，严重降低网络性能。为解决该问题，将强化学习中的Q-Learning算法引入AODV路由决策过程。将每个无人机节点视为智能体(Agent)，将路由选择过程建模为马尔可夫决策过程(MDP)，通过不断与网络环境交互，学习一个最优的Q值表，指导路由请求(RREQ)转发和路径选择，从而找到兼顾跳数、链路稳定性和节点剩余能量的最优稳定路由。

2.Q-Learning算法原理

Q-Learning是一种无模型（model-free）的时序差分（TD ）学习方法，其核心更新公式为：

3.基于QLearning算法的无人机自组网AODV稳定路由

3.1 初始化网络环境

生成N架无人机的三维随机位置pi=(xi,yi,zi)和速度vi=(x˙i,y˙i,z˙i)，设定通信半径R，计算初始邻接矩阵。

3.2 构建Q值表

初始化N×N的Q值矩阵Q(s,a)=0。

3.3 迭代训练

对每个训练回合（Episode），随机选择源节点ssrc和目的节点sdst。从源节点出发，按ε-贪婪策略选择下一跳，计算即时奖励r(si,aj)，按Q-Learning公式更新Q值，直到到达目的节点或超过最大跳数。

3.4 更新网络拓扑

每轮训练后更新无人机位置：

同时检查边界反弹条件，并重新计算邻接矩阵和链路稳定性。

3.5 路由决策

训练完成后，对于任意源-目的节点对，从源节点开始，每一步贪婪选择QQ值最大的邻居节点作为下一跳，直到到达目的节点，即可得到最优稳定路由。统计每回合的累积奖励、路由成功率和平均跳数，绘制训练曲线和奖励曲线。

4.Matlab仿真程序

% 绘制所有节点
scatter3(final_pos(:,1), final_pos(:,2), final_pos(:,3), 100, ...
[0.3 0.6 1], 'filled', 'MarkerEdgeColor', 'k');
% 高亮路由路径
if route(end) == dst_demo
for k = 1:length(route)-1
i = route(k); j = route(k+1);
plot3([final_pos(i,1) final_pos(j,1)], ...
[final_pos(i,2) final_pos(j,2)], ...
[final_pos(i,3) final_pos(j,3)], ...
'r-', 'LineWidth', 3.5);
end
scatter3(final_pos(route,1), final_pos(route,2), final_pos(route,3), ...
200, 'r', 'filled', 'MarkerEdgeColor', 'k', 'LineWidth', 2);
end
% 标注源和目的
scatter3(final_pos(src_demo,1), final_pos(src_demo,2), final_pos(src_demo,3), ...
300, 'g', 'p', 'filled', 'MarkerEdgeColor', 'k', 'LineWidth', 2);
scatter3(final_pos(dst_demo,1), final_pos(dst_demo,2), final_pos(dst_demo,3), ...
300, 'm', 'p', 'filled', 'MarkerEdgeColor', 'k', 'LineWidth', 2);
for i = 1:N
text(final_pos(i,1)+12, final_pos(i,2)+12, final_pos(i,3)+12, ...
num2str(i), 'FontSize', 10, 'FontWeight', 'bold');
end
xlabel('X (m)', 'FontSize', 12);
ylabel('Y (m)', 'FontSize', 12);
zlabel('Z (m)', 'FontSize', 12);
title(sprintf('Q-Learning最优路由: 节点%d → 节点%d | 路径: %s', ...
src_demo, dst_demo, num2str(route)), 'FontSize', 13);
legend('通信链路', '网络节点', '最优路由', '路由节点', '源节点', '目的节点', ...
'Location', 'northeast', 'FontSize', 10);
view(35, 30); grid on;
xlim([0 area(1)]); ylim([0 area(2)]); zlim([0 area(3)]);
set(gca, 'FontSize', 11);
fprintf('\n仿真完成！共生成5个图形窗口。\n');
fprintf('最终路由成功率: %.1f%%\n', mean(success_history(end-49:end))*100);
fprintf('最终平均奖励: %.2f\n', mean(reward_history(end-49:end)));