当前位置：首页 > news >正文

MATLAB强化学习工具箱实战：手把手教你用Q-Learning和SARSA通关5x5网格世界

news 2026/5/6 4:19:32

MATLAB强化学习工具箱实战：Q-Learning与SARSA在网格世界中的算法对决

引言

想象一下，你正站在一个5x5的迷宫里，四周是高耸的墙壁，你需要找到通往宝藏的最短路径。每走一步都可能面临奖励或惩罚，而你的大脑会不断调整策略——这正是强化学习的核心思想。MATLAB强化学习工具箱将这种人类学习过程数字化，让我们能够通过代码模拟智能体在环境中的决策过程。

对于刚接触强化学习的开发者来说，官方文档往往过于抽象，难以直接转化为可运行的代码。本文将以一个具体的5x5网格世界为例，手把手带你实现两种经典算法——Q-Learning和SARSA。我们不仅会看到代码如何运行，更会深入比较两种算法在收敛速度、策略选择上的微妙差异。无论你是MATLAB初学者还是强化学习入门者，都能通过这个实战案例获得直观理解。

1. 网格世界环境搭建

1.1 环境初始化与规则设定

首先我们需要创建一个5x5的网格世界环境。这个环境包含以下关键元素：

% 创建预定义的网格世界环境 env = rlPredefinedEnv("BasicGridWorld"); % 设置初始状态为(2,1)，对应状态编号2 env.ResetFcn = @() 2; % 固定随机种子保证结果可复现 rng(0)

环境规则说明：

动作空间：4个离散动作（上=1，下=2，右=3，左=4）
奖励机制：
- 到达终点(蓝色格子)：+10
- 从(2,4)跳到(4,4)：+5
- 碰到障碍(黑色格子)：-1
- 其他移动：-1

注意：MATLAB中网格坐标从左上角开始，(1,1)为左上角格子，状态编号按列优先顺序递增。

1.2 可视化环境结构

为了直观理解环境，我们可以绘制网格地图：

plot(env) env.Model.Viewer.ShowTrace = true; % 启用轨迹显示

环境特征可以用以下表格概括：

元素类型	坐标位置	奖励值	特殊行为
起点	(2,1)	-	初始位置
终点	(5,5)	+10	终止状态
跳跃点	(2,4)	+5	传送到(4,4)
障碍物	(3,3)	-1	阻挡移动

2. Q-Learning算法实现

2.1 代理创建与参数配置

Q-Learning是一种无模型强化学习算法，通过维护一个Q表来估计状态-动作对的价值。以下是创建Q-Learning代理的关键步骤：

% 获取环境观测和动作信息 obsInfo = getObservationInfo(env); actInfo = getActionInfo(env); % 创建Q表 qTable = rlTable(obsInfo, actInfo); % 创建Q值函数近似器 qFcnAppx = rlQValueFunction(qTable, obsInfo, actInfo); % 创建Q-Learning代理 qAgent = rlQAgent(qFcnAppx); % 配置探索参数 qAgent.AgentOptions.EpsilonGreedyExploration.Epsilon = 0.04; % 探索率 qAgent.AgentOptions.CriticOptimizerOptions.LearnRate = 0.01; % 学习率

关键参数说明：

Epsilon (ε)：控制探索-利用权衡，4%的概率随机探索
学习率：0.01的较小值保证稳定收敛

2.2 训练过程与结果分析

设置训练参数并启动训练：

trainOpts = rlTrainingOptions; trainOpts.MaxStepsPerEpisode = 50; % 每回合最大步数 trainOpts.MaxEpisodes = 200; % 最大训练回合数 trainOpts.StopTrainingCriteria = "AverageReward"; trainOpts.StopTrainingValue = 11; % 平均奖励阈值 trainOpts.ScoreAveragingWindowLength = 30; % 平均窗口 % 开始训练 trainingStats = train(qAgent, env, trainOpts);

训练结果可视化：

plot(trainingStats.EpisodeReward) xlabel('Episode'); ylabel('Reward'); title('Q-Learning训练奖励曲线');

典型训练曲线特征：

前50回合：奖励波动剧烈，代理随机探索
50-100回合：开始发现跳跃点捷径
150回合后：稳定获得最高奖励

提示：可以通过sim(qAgent, env)命令观察训练后代理的实际移动路径，通常会看到代理熟练利用跳跃点捷径。

3. SARSA算法实现

3.1 代理创建与参数对比

SARSA与Q-Learning的主要区别在于更新策略，它是一种on-policy算法。创建SARSA代理：

% 使用相同的Q值函数近似器 sarsaAgent = rlSARSAAgent(qFcnAppx); % 保持参数一致便于公平比较 sarsaAgent.AgentOptions.EpsilonGreedyExploration.Epsilon = 0.04; sarsaAgent.AgentOptions.CriticOptimizerOptions.LearnRate = 0.01;

虽然参数设置相同，但两种算法的内在机制有本质区别：

特性	Q-Learning	SARSA
更新策略	off-policy	on-policy
目标动作	最大Q值动作	实际采取的动作
探索影响	更新不受探索策略限制	更新受当前策略影响
风险偏好	更激进	更保守

3.2 训练过程对比分析

使用相同的训练配置进行SARSA训练：

sarsaStats = train(sarsaAgent, env, trainOpts);

将两种算法的训练曲线叠加比较：

hold on plot(trainingStats.EpisodeReward, 'b') % Q-Learning plot(sarsaStats.EpisodeReward, 'r') % SARSA legend('Q-Learning', 'SARSA')

关键观察点：

初期表现：SARSA收敛速度略快于Q-Learning
最终策略：Q-Learning平均奖励略高(约12 vs 11)
路径选择：SARSA倾向于更安全的路径，避开靠近障碍的路线

4. 算法深度比较与实战建议

4.1 策略可视化对比

我们可以提取并可视化两种算法学习到的最优策略：

% 获取Q表数据 qTableData = getLearnableParameters(getCritic(qAgent)); sarsaTableData = getLearnableParameters(getCritic(sarsaAgent)); % 找出每个状态的最优动作 [~, qPolicy] = max(qTableData{1}, [], 2); [~, sarsaPolicy] = max(sarsaTableData{1}, [], 2);

策略差异主要体现在三个关键区域：

靠近障碍的区域：SARSA会选择绕行，Q-Learning可能尝试擦边
跳跃点附近：两者都会利用，但Q-Learning使用更频繁
终点附近：策略高度一致

4.2 超参数调优经验

基于网格世界环境的调优建议：

学习率选择：
- 过高(>0.1)：可能导致震荡
- 过低(<0.001)：收敛过慢
- 推荐范围：0.01-0.05
探索率设置：
- 初期：较高(0.1-0.3)促进探索
- 后期：逐渐衰减(可线性降至0.01)
折扣因子γ：
- 接近1(如0.99)：重视长期回报
- 较小值(如0.9)：更关注即时奖励

实际项目中，我发现一个有效的技巧是动态调整探索率：

% 在训练循环中添加 currentEpsilon = max(0.01, 0.3*(1 - episode/maxEpisodes)); agent.AgentOptions.EpsilonGreedyExploration.Epsilon = currentEpsilon;

4.3 常见问题排查

当算法表现不佳时，可以检查以下方面：

奖励设计：确保奖励信号足够区分好坏行为
状态表示：检查是否包含了所有必要信息
收敛判断：适当增加训练回合数
随机性影响：多次运行取平均结果

一个实用的调试技巧是增加可视化中间结果：

% 每N回合显示一次Q表 if mod(episode, 50) == 0 imagesc(qTableData{1}) colorbar; title(['Episode ' num2str(episode)]); pause(0.5) end

查看全文

http://www.jsqmd.com/news/761351/

多模态文本到图像生成技术评测框架解析

2026年工业级程序提取技术全解析：单片机破解、多层板抄板、嵌入式开发、工控设计、汽车电子设计、电路方案开发、硬件设计选择指南 - 优质品牌商家

Axiomtek AIE900-XNX边缘AI系统解析与应用指南

在多轮对话应用中感受Taotoken聚合端点的响应连贯性

大语言模型角色漂移问题分析与解决方案

别再用记事本看DICOM了！用Python+pydicom一键提取患者信息和影像参数（附完整代码）

MLP孪生网络在无人机实时追踪中的创新应用

2026成都本地可靠旅行社TOP5：成都纯玩旅行社、成都靠谱旅行社、成都周边一日游、成都周边两日游、成都周边亲子游选择指南 - 优质品牌商家

为AI智能体集成临时邮箱：基于MCP协议的自动化验证解决方案

别只盯着XGBoost！用逻辑回归和决策树也能搞定天猫复购预测（特征工程是关键）

React-Redux反模式：10个常见错误和终极避坑指南

青龙面板在安卓手机跑不起来？可能是SSH和BusyBox没配好（附问题排查清单）

javascript新手福音：用快马平台生成可交互代码示例快速入门

掌握Atom代码折叠快捷键：提升代码阅读效率的10个必备技巧

Linux内存取证神器Rekall：5个关键插件使用详解

Overleaf排版进阶：除了graphicx，这些宏包能让你的论文图表更专业（subcaption, float, caption实战）

Open UI5 源代码解析之1334：hasTag.js

安卓demo-折叠屏平行视界适配（embedding方案）

2026PCBA清洗机怎么选：离线清洗机、过炉治具清洗机、LED清洗机、PCBA在线水洗机、PCB在线清洗机、PCB清洗机选择指南 - 优质品牌商家

如何在Vue Element Admin中实现全局异常捕获与友好提示：完整指南

【限时解密】Dify农业专属调试工具箱V2.3：含土壤墒情校准插件、农机轨迹纠偏SDK及36小时应急响应通道（仅开放至本季度末）

30岁男性BMI26原子化科学减腰围的庖丁解牛

Web AI服务API化：逆向工程与FastAPI实战指南

Storeon：180字节的终极状态管理解决方案 - 为什么你应该放弃Redux？

【数据结构与算法】—顺序表（续）

新手入门pid控制：用快马平台生成交互式教学代码理解参数调节

AWS EC2实例类型从t3.medium升级到t3.large怎么做？具体步骤有哪些？

从摄像头到HDMI：手把手教你用Zynq-7000玩转视频缩放与拼接（含资源评估与移植指南）

AI应用开发实战：useai统一接口层架构设计与生产环境集成指南

Tiled地图编辑器：如何用5个核心功能打造专业级2D游戏地图