当前位置：首页 > news >正文

【机器人】基于Q-Learning实现的多机器人路径规划附matlab代码

news 2026/6/22 2:00:59

✅作者简介：热爱科研的Matlab仿真开发者，擅长毕业设计辅导、数学建模、数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。

🍎 往期回顾关注个人主页：Matlab科研工作室

👇 关注我领取海量matlab电子书和数学建模资料

🍊个人信条：做科研，博学之、审问之、慎思之、明辨之、笃行之，是为：博学慎思，明辨笃行。

🔥 内容介绍

一、引言

在多机器人协同作业场景中，如仓储物流、工业制造、智能农业等领域，路径规划是确保机器人高效、安全运行的关键环节。多机器人路径规划需要考虑机器人之间的相互协作与避免碰撞，同时要找到从起始点到目标点的最优或近似最优路径。Q - Learning 作为一种经典的强化学习算法，通过让机器人在环境中不断试错并学习，能够有效地解决路径规划问题。它不需要环境的先验知识，仅依靠与环境的交互获取的奖励反馈来优化策略，因此在多机器人路径规划领域得到了广泛应用。

二、Q - Learning 算法原理

（一）基本概念

状态（State）：在多机器人路径规划中，状态可以表示机器人在地图中的位置、周围障碍物的分布、其他机器人的位置等信息。例如，将二维地图划分为网格，每个网格作为一个位置状态，同时结合机器人与障碍物、其他机器人的相对位置关系来完整描述状态。
动作（Action）：机器人可执行的动作，如向前移动一格、向左转、向右转、后退等。
奖励（Reward）：环境根据机器人执行动作后的状态给予的反馈信号。在路径规划中，通常给予到达目标点正奖励，碰撞障碍物或与其他机器人发生冲突给予负奖励，在正常移动过程中给予较小的负奖励以鼓励机器人尽快到达目标点。例如，到达目标点奖励 +100，碰撞障碍物或机器人冲突奖励 -100，每正常移动一步奖励 -1。
Q 值（Q - value）：Q 值函数 Q(s,a) 表示在状态 s 下执行动作 a 后，从该状态出发所能获得的累积奖励的期望。Q - Learning 的目标就是学习到一个最优的 Q 值函数，使得机器人能够根据 Q 值选择最优动作。

（二）算法流程

初始化：初始化 Q 值表，通常将所有状态 - 动作对的 Q 值初始化为 0。同时设定学习率 α（控制每次学习更新 Q 值的步长）、折扣因子 γ（决定未来奖励对当前决策的影响程度）和探索率 ϵ（控制机器人在选择动作时是探索新动作还是利用已学习到的最优动作）。
环境交互：机器人观察当前状态 st，根据 ϵ−贪婪策略选择动作 at。以概率 ϵ 随机选择一个动作进行探索，以概率 1−ϵ 选择当前状态下 Q 值最大的动作进行利用。
执行动作与状态转移：机器人执行选择的动作 at，环境根据动作做出响应，使机器人转移到新的状态 st+1，并给予奖励 rt。
（二）动作空间定义
动作空间对于每个机器人是相同的，包含基本的移动和转向动作。例如，动作集合 A={向前移动,向左转,向右转,后退}。在实际应用中，每个动作可能对应不同的位移或角度变化量。
（三）奖励函数设计
奖励函数的设计直接影响机器人的学习效果和路径规划质量。除了基本的到达目标点奖励、碰撞惩罚外，还需要考虑机器人之间的避碰。例如：
到达目标点奖励：当某个机器人到达其目标点时，给予该机器人一个较大的正奖励，如 Rgoal=+100。
碰撞障碍物惩罚：如果机器人碰撞到障碍物，给予一个较大的负奖励，如 Robstacle=−100。
机器人碰撞惩罚：当两个或多个机器人发生碰撞时，对参与碰撞的机器人都给予负奖励，如 Rcollision=−100。
正常移动奖励：为了鼓励机器人尽快到达目标点，每正常移动一步给予一个较小的负奖励，如 Rstep=−1。
（四）多机器人协作与避碰
集中式学习：在集中式学习方式下，所有机器人共享一个 Q 值表，它们的状态和动作被整合到一个统一的状态空间和动作空间中。每个机器人在做出决策时，都基于这个共享的 Q 值表进行。例如，当一个机器人执行动作并获得奖励时，所有机器人都根据这个奖励更新共享的 Q 值表。这种方式可以有效协调机器人之间的动作，但计算量较大，随着机器人数量增加，状态空间维度急剧增大，可能导致学习效率低下。
分布式学习：每个机器人拥有自己独立的 Q 值表，仅根据自身的状态、动作和获得的奖励来更新 Q 值。为了实现协作与避碰，机器人之间需要进行信息交互。例如，机器人可以定期广播自己的位置和状态信息，其他机器人在更新 Q 值时考虑这些信息。这种方式虽然计算量相对较小，但协调机器人之间的动作可能需要更复杂的信息交互机制。
四、实验与结果分析
（一）实验设置
模拟环境构建：构建一个二维网格地图作为机器人的工作环境，在地图中随机分布障碍物，设置多个机器人的起始点和目标点。
参数设置：设定学习率 α=0.1，折扣因子 γ=0.9，探索率 ϵ 从 1 开始逐渐衰减到 0.1，以平衡探索与利用。
对比方法：将基于 Q - Learning 的多机器人路径规划方法与传统的 A * 算法、Dijkstra 算法等进行对比。
（二）实验结果
路径规划效果：经过多次迭代学习，基于 Q - Learning 的方法能够找到无碰撞的路径，使所有机器人成功到达目标点。与传统算法相比，在复杂环境和多机器人场景下，Q - Learning 方法能够更好地适应环境变化，找到更灵活的路径。例如，在存在动态障碍物的环境中，Q - Learning 方法能够实时调整路径，而传统算法可能需要重新计算整个路径。
收敛速度：分析 Q 值随迭代次数的变化情况，发现随着迭代次数增加，Q 值逐渐收敛，表明机器人逐渐学习到最优策略。与其他强化学习算法相比，Q - Learning 在多机器人路径规划中的收敛速度相对较快，能够在合理的时间内获得有效的路径规划方案。
扩展性：随着机器人数量的增加，基于 Q - Learning 的方法仍然能够有效地进行路径规划，虽然计算量有所增加，但通过分布式学习等方式可以在一定程度上缓解计算压力。而传统算法在机器人数量增多时，计算复杂度呈指数增长，可能无法在合理时间内得到解决方案。
综上所述，基于 Q - Learning 实现的多机器人路径规划方法能够有效解决多机器人在复杂环境中的路径规划问题，通过合理设计状态空间、动作空间和奖励函数，结合集中式或分布式学习方式，能够实现机器人之间的协作与避碰。实验结果表明，该方法在路径规划效果、收敛速度和扩展性方面都具有一定优势，为多机器人系统的实际应用提供了一种可行的解决方案。

⛳️ 运行结果

📣 部分代码

clc; clear; close all;

% Get Grid Size

gridSize = input('Enter Grid Size as [rows cols]: ');

% Get Number of Robots

numRobots = input('Enter Number of Robots: ');

% Get Number of Obstacles

numObstacles = input('Enter Number of Obstacles: ');

% Generate Grid

[X, Y] = meshgrid(1:gridSize(2), 1:gridSize(1));

% Plot Grid

figure; hold on;

plot(X, Y, 'k.'); % Plot grid points

xlim([0 gridSize(2)+1]);

ylim([0 gridSize(1)+1]);

grid on;

set(gca, 'XTick', 1:gridSize(2), 'YTick', 1:gridSize(1), 'GridAlpha', 0.3);

xlabel('X'); ylabel('Y'); title('Ordinary Grid');

hold off;

disp("Generating grid...");

% Generate random obstacles

obstacles = randi([1 gridSize(1)], numObstacles, 2);

% Generate random robot positions

robotPositions = randi([1 gridSize(1)], numRobots, 2);

% Set a goal position

goalPos = randi([1 gridSize(1)], 1, 2);

% Q-Learning Parameters

gamma = 0.95;

alpha = 0.1;

epsilon = 0.1;

episodes = 500;

actions = [0 1; 0 -1; -1 0; 1 0]; % Right, Left, Up, Down

Q_table = zeros(gridSize(1), gridSize(2), 4);

pathLengths = zeros(numRobots, 1);

% Training Loop

tic;

for ep = 1:episodes

for r = 1:numRobots

pos = robotPositions(r, :);

steps = 0;

while ~isequal(pos, goalPos) && steps < (gridSize(1) * gridSize(2))

steps = steps + 1;

if rand < epsilon

actionIdx = randi(4);

else

[~, actionIdx] = max(Q_table(pos(1), pos(2), :));

end

newPos = max(min(pos + actions(actionIdx, :), gridSize), [1,1]);

if isequal(newPos, goalPos)

reward = 100;

elseif ismember(newPos, obstacles, 'rows')

reward = -10;

else

reward = -0.1;

end

Q_table(pos(1), pos(2), actionIdx) = ...

(1 - alpha) * Q_table(pos(1), pos(2), actionIdx) + ...

alpha * (reward + gamma * max(Q_table(newPos(1), newPos(2), :)));

pos = newPos;

end

pathLengths(r) = steps;

end

computationTime = toc;

disp("Plotting...");

% Visualization

figure; hold on;

axis([1 gridSize(1) 1 gridSize(2)]);

grid on;

axis equal;

set(gca, 'XTick', 1:gridSize(1), 'YTick', 1:gridSize(2), 'GridColor', 'k');

set(gca, 'YDir', 'normal');

xlabel('X'); ylabel('Y'); title('Multi-Robot Path Planning');

% Plot Grid

plot(obstacles(:,1), obstacles(:,2), 'rs', 'MarkerSize', 10, 'LineWidth', 2);

plot(goalPos(1), goalPos(2), 'r*', 'MarkerSize', 12, 'LineWidth', 2);

% Plot Robots

robotPlots = gobjects(numRobots, 1);

for r = 1:numRobots

robotPlots(r) = plot(robotPositions(r,1), robotPositions(r,2), ...

'go', 'MarkerSize', 10, 'MarkerFaceColor', 'g');

end

% Simulate Movement

collisionCount = 0;

robotPaths = cell(numRobots,1);

for r = 1:numRobots

pos = robotPositions(r, :);

path = pos;

while ~isequal(pos, goalPos) && size(path,1) < (gridSize(1) * gridSize(2))

[~, actionIdx] = max(Q_table(pos(1), pos(2), :));

newPos = max(min(pos + actions(actionIdx, :), gridSize), [1,1]);

if ismember(newPos, obstacles, 'rows')

collisionCount = collisionCount + 1;

break;

else

pos = newPos;

path = [path; pos];

end

robotPaths{r} = path;

end

% Metrics Calculation

truePositives = sum(pathLengths < (gridSize(1) * gridSize(2)));

falsePositives = collisionCount;

falseNegatives = numRobots - truePositives;

trueNegatives = numRobots - collisionCount;

precision = truePositives / numRobots;

accuracy = (truePositives) / numRobots;

f1_score = 2 * (precision * accuracy) / (precision + accuracy);

collisionAvoidanceRate = 1 - (collisionCount / numRobots);

% Print Metrics

fprintf('F1 Score: %.4f\n', f1_score);

fprintf('Accuracy: %.4f\n', accuracy);

fprintf('Precision: %.4f\n', precision);

fprintf('Collision Avoidance Rate: %.4f\n', collisionAvoidanceRate);

fprintf('Computation Time: %.4f seconds\n', computationTime);

% Animate Movement

maxSteps = max(cellfun(@(x) size(x,1), robotPaths));

trajPlots = gobjects(numRobots, 1);

for r = 1:numRobots

trajPlots(r) = plot(NaN, NaN, 'b-', 'LineWidth', 1.5);

end

for t = 1:maxSteps

for r = 1:numRobots

if t <= size(robotPaths{r},1)

set(robotPlots(r), 'XData', robotPaths{r}(t,1), 'YData', robotPaths{r}(t,2));

set(trajPlots(r), 'XData', robotPaths{r}(1:t,1), 'YData', robotPaths{r}(1:t,2));

end

pause(0.5);

end

hold off;

🔗 参考文献

🍅更多创新智能优化算法模型和应用场景可扫描关注

🌟机器学习/深度学习类：BP、SVM、RVM、DBN、LSSVM、ELM、KELM、HKELM、DELM、RELM、DHKELM、RF、SAE、LSTM、BiLSTM、GRU、BiGRU、PNN、CNN、XGBoost、LightGBM、TCN、BiTCN、ESN、Transformer、模糊小波神经网络、宽度学习等等均可~

方向涵盖风电预测、光伏预测、电池寿命预测、辐射源识别、交通流预测、负荷预测、股价预测、PM2.5浓度预测、电池健康状态预测、用电量预测、水体光学参数反演、NLOS信号识别、地铁停车精准预测、变压器故障诊断

🌟组合预测类：CNN/TCN/BiTCN/DBN/Transformer/Adaboost结合SVM、RVM、ELM、LSTM、BiLSTM、GRU、BiGRU、Attention机制类等均可（可任意搭配非常新颖）~

🌟分解类：EMD、EEMD、VMD、REMD、FEEMD、TVFEMD、CEEMDAN、ICEEMDAN、SVMD、FMD、JMD等分解模型均可~

🌟路径规划类：旅行商问题（TSP）、车辆路径问题（VRP、MVRP、CVRP、VRPTW等）、无人机三维路径规划、无人机协同、无人机编队、机器人路径规划、栅格地图路径规划、多式联运运输问题、充电车辆路径规划（EVRP）、双层车辆路径规划（2E-VRP）、油电混合车辆路径规划、船舶航迹规划、全路径规划规划、仓储巡逻、公交车时间调度、水库调度优化、多式联运优化等等~

🌟小众优化类：生产调度、经济调度、装配线调度、充电优化、车间调度、发车优化、水库调度、三维装箱、物流选址、货位优化、公交排班优化、充电桩布局优化、车间布局优化、集装箱船配载优化、水泵组合优化、解医疗资源分配优化、设施布局优化、可视域基站和无人机选址优化、背包问题、风电场布局、时隙分配优化、最佳分布式发电单元分配、多阶段管道维修、工厂-中心-需求点三级选址问题、应急生活物质配送中心选址、基站选址、道路灯柱布置、枢纽节点部署、输电线路台风监测装置、集装箱调度、机组优化、投资优化组合、云服务器组合优化、天线线性阵列分布优化、CVRP问题、VRPPD问题、多中心VRP问题、多层网络的VRP问题、多中心多车型的VRP问题、动态VRP问题、双层车辆路径规划（2E-VRP）、充电车辆路径规划（EVRP）、油电混合车辆路径规划、混合流水车间问题、订单拆分调度问题、公交车的调度排班优化问题、航班摆渡车辆调度问题、选址路径规划问题、港口调度、港口岸桥调度、停机位分配、机场航班调度、泄漏源定位、冷链、时间窗、多车场等、选址优化、港口岸桥调度优化、交通阻抗、重分配、停机位分配、机场航班调度、通信上传下载分配优化、微电网优化、无功优化、配电网重构、储能配置、有序充电、MPPT优化、家庭用电、电/冷/热负荷预测、电力设备故障诊断、电池管理系统（BMS）SOC/SOH估算（粒子滤波/卡尔曼滤波）、多目标优化在电力系统调度中的应用、光伏MPPT控制算法改进（扰动观察法/电导增量法）、电动汽车充放电优化、微电网日前日内优化、储能优化、家庭用电优化、供应链优化\智能电网分布式能源经济优化调度，虚拟电厂，能源消纳，风光出力，控制策略，多目标优化，博弈能源调度，鲁棒优化等等均可~

🌟 无人机应用方面：无人机路径规划、无人机控制、无人机编队、无人机协同、无人机任务分配、无人机安全通信轨迹在线优化、车辆协同无人机路径规划

🌟通信方面：传感器部署优化、通信协议优化、路由优化、目标定位优化、Dv-Hop定位优化、Leach协议优化、WSN覆盖优化、组播优化、RSSI定位优化、水声通信、通信上传下载分配

🌟信号处理方面：信号识别、信号加密、信号去噪、信号增强、雷达信号处理、信号水印嵌入提取、肌电信号、脑电信号、信号配时优化、心电信号、DOA估计、编码译码、变分模态分解、管道泄漏、滤波器、数字信号处理+传输+分析+去噪、数字信号调制、误码率、信号估计、DTMF、信号检测

🌟电力系统方面：
微电网优化、无功优化、配电网重构、储能配置、有序充电、MPPT优化、家庭用电、电/冷/热负荷预测、电力设备故障诊断、电池管理系统（BMS）SOC/SOH估算（粒子滤波/卡尔曼滤波）、多目标优化在电力系统调度中的应用、光伏MPPT控制算法改进（扰动观察法/电导增量法）、电动汽车充放电优化、微电网日前日内优化、储能优化、家庭用电优化、供应链优化\智能电网分布式能源经济优化调度，虚拟电厂，能源消纳，风光出力，控制策略，多目标优化，博弈能源调度，鲁棒优化

🌟原创改进优化算法（适合需要创新的同学）：原创改进2025年的波动光学优化算法WOO以及三国优化算法TKOA、白鲸优化算法BWO等任意优化算法均可，保证测试函数效果，一般可直接核心

告诫读者和自己第一，科学态度。历史学是一门科学，要学会做历史研究，就得有科学态度。科学态度不是与生俱来的，必须认真培养，关键是培养我们在研究中认真负责一丝不苟的精神。第二，献身精神。从事历史研究，就像从事其他任何科学研究一样，要有一种为科学研究而献身的精神，要热爱我们的研究事业，要有潜心从事这项工作的意志。没有献身精神，当然做不好科研工作。只想拿一个学位，那是很难学好做研究的。要拿学位，这一点可以理解，但我们读书，是为了自己获得真才实学。有了真才实学将来不论做什么工作，都是有用的。当然学位也是要的，但关键的是学问而不是学位。第三，查阅收集学术信息、资料的能力。青年学生要从事学术研究，就要培养能熟练地掌握查阅搜集学术信息、资料的能力。例如学习与研究英帝国史，就得了解国内外有关这个专业的基本情况，了解有关资料情况。像你们在北京地区学习，至少要大致了解北京地区有关英帝国史的中英文资料，熟悉与专业密切相关的主要图书馆，了解馆藏情况。这就需要经常去图书馆。我们这个专业不需要到田间考察，到工厂调研，但要去图书馆，去图书馆就是我们的调查研究。熟悉有关图书馆的情况是我们学习的一部分。今天，网络飞速发展，掌握网上查阅信息的技巧是非常必要的。第四，处理资料的能力。搜集的资料会越来越多，怎样安排它们也是一门学问。各学科各个研究人员的方式可能会有所不同，但总的原则是要有条理，便于记忆，便于查阅。第五，对资料的鉴别意识与鉴别能力。我们在使用研究资料时不能拿着就用，要有意识鉴别一下，材料是否可靠，什么样的材料更有价值。读书时，也不是拿着什么书就通读到底。有的书翻一翻即可，有的书则需认真读。区别哪些书翻一翻即可，哪些书得认真读，也不是一件容易的事，青年学生不是一下子就能做到这一点的，需逐渐培养这种能力。还有一点就是要学会使用计算机，能比较熟练地进行文字处理。

更多免费代码链接（也可直接点击阅读原文）：

https://mp.weixin.qq.com/s/xWdAoVwmhdbfixDcsaJ_qA

https://gitcode.com/qq_59747472/Matlab/blob/main/README.md

查看全文

http://www.jsqmd.com/news/747516/