当前位置：首页 > news >正文

马尔可夫决策过程

news 2026/5/26 2:16:39

定位：强化学习最底层数学框架，所有强化学习问题几乎都可以抽象成 MDP，用来描述智能体在不确定环境里连续做决策、最大化长期收益的全过程。

一、前置：马尔可夫性质（MDP 的灵魂）

1. 定义

未来只由当前决定，和过去无关公式简写：

大白话

我下一步去哪，只看现在在哪，不记得之前走过什么路，无记忆性。

二、MDP 完整 5 大核心要素（必背）

标准五元组：(S,A,P,R,γ)

1. S：状态空间 State

智能体所有能处于的环境状态集合
例子：迷宫里的每个格子、游戏画面、机器人位置

2. A：动作空间 Action

智能体所有能执行的动作
例子：上下左右、开火、前进、左转

3. P：状态转移概率 Transition

P(s'|s,a)

含义：当前在状态 s，执行动作 a，跳到下一个状态 s' 的概率
代表环境随机性：同样动作不一定到同一个地方

4. R：即时奖励 Reward

R(s,a,s')

做完动作立刻拿到的瞬时分数
正向奖励：加分（吃到食物、到达终点）
负奖励：扣分（撞墙、掉坑）

5. γ：折扣因子 Discount factor

范围：{0，1}

作用：压低未来奖励权重
越接近 1：越看重长远收益
越接近 0：只看眼前即时奖励

三、MDP 完整交互流程（时序过程）

时刻 t：智能体观测当前状态 s_t
智能体根据策略选择动作 a_t
环境依据转移概率 P 给出下一个状态 s_{t+1}
智能体获得即时奖励 r_t
进入 t+1 时刻，重复循环直到终止

四、核心关键概念（强化学习必考）

1. 策略 Policy

策略 = 智能体的做事规则

确定性策略：pi(s)=a同一个状态永远选同一个动作
随机性策略：pi(a|s)状态 s 下选动作 a 的概率

MDP 最终目标：找到最优策略

2. 折扣总回报 Return

从 t 时刻往后所有奖励总和（带折扣）

不是只看当下奖励，是未来所有收益总和

3. 状态值函数 V(s)

含义：从状态s出发，遵循当前策略，能拿到的期望长期总回报

用来评判：这个状态好不好、值不值得待

4. 动作值函数 Q(s,a)

含义：在状态s下执行动作a，后续能拿到的期望长期总回报

用来评判：在这个状态选这个动作好不好
深度学习里最常用：DQN 就是拟合 Q 值

五、MDP 核心公式：贝尔曼方程（Bellman）

1. 状态值函数贝尔曼期望方程

通俗翻译当前状态的价值 = 立刻拿到的奖励 + 下一个状态价值打折扣后的期望值

2. 动作值函数贝尔曼方程

3. 最优贝尔曼方程

去掉策略，直接取最大收益：

含义：每个状态都选最优动作，得到全局最大价值

六、MDP 分类

完全可观测 MDP智能体能看清全部环境状态 = 绝大多数强化学习场景
部分可观测 POMDP只能看到局部信息（看不到全局），难度更高

七、MDP 常用求解方法

动态规划 DP（已知环境模型 P、R）
- 策略迭代
- 值迭代
蒙特卡洛 MC（靠采样轨迹算均值）
时序差分 TD（最实用，TD0、TDλ）
深度强化学习（未知环境，拟合 Q/V）
- DQN、PPO、A3C 全部基于 MDP

八、生活化极简例子（秒懂）

例子：上班通勤 MDP

状态 S：在家、在路上、到公司
动作 A：坐地铁、打车、走路
转移 P：雨天打车容易堵车（转移概率变了）
奖励 R：准时到 + 10，迟到 - 20，花钱 - 5
折扣 γ：更在意今天上班，不在意一周后
策略：晴天地铁，雨天打车
值函数 V (在家)：评估从家里出发整体好不好

整个通勤过程就是标准马尔可夫决策过程

九、总结一句话

马尔可夫决策过程 MDP = 满足无记忆性的环境 + 智能体动作选择 + 即时奖励 + 长期收益折算，是一切序列决策、强化学习问题的统一数学模型。

查看全文

http://www.jsqmd.com/news/845455/

Mi-Create：三步打造专属小米手表表盘，零基础也能成为设计达人

OpenSTA静态时序分析工具：从入门到精通的完整指南

2026性价比之选福州黄金回收铂金回收白银回收靠谱诚信店铺推荐_转自TXT - 亦辰小黄鸭

百度网盘macOS版加速插件完全指南：三步破解限速限制

2026性价比之选合肥黄金回收铂金回收白银回收靠谱诚信店铺推荐_转自TXT - 亦辰小黄鸭

从双目相机到3D地图：视差图转点云在机器人SLAM中的实战应用

一键修复Windows程序运行库：告别“应用程序无法启动“的终极方案

2026性价比之选抚州黄金回收铂金回收白银回收靠谱诚信店铺推荐_转自TXT - 亦辰小黄鸭

2023B卷，书籍叠放

2026企业微信怎么开通？一站式开通指南与联系方式 - 品牌2025

怎样给照片去背景？2026 图片抠图方法对比｜免费在线工具实测

IO杂记I

2026年沃尔玛购物卡回收平台深度评测报告 - 速递信息

在WSL2上5分钟搞定Kafka 3.6.0伪集群：从单实例到三节点保姆级配置

量化分析师开始用 Claude Code 挖 Alpha 了，而且出了一篇 arXiv 论文

2026性价比之选阜阳黄金回收铂金回收白银回收靠谱诚信店铺推荐_转自TXT - 亦辰小黄鸭

2026年全国仓库货架厂家哪家好聚焦智能仓储覆盖多区域技术过硬售后及时 - 深度智识库

实用指南：5分钟搞定Minecraft MASA模组中文汉化

保姆级教程：在Ubuntu 20.04 ROS Noetic下，从零搭建UR5机械臂的Gazebo仿真环境

别再只用ARIMA了！用Python+statsmodels搞定SARIMA预测电商销量（附完整代码）

2026性价比之选赣州黄金回收铂金回收白银回收靠谱诚信店铺推荐_转自TXT - 亦辰小黄鸭

2026年贵州高考志愿填报与学业规划全链条服务深度指南：如何用150亿参数AI破解滑档困局 - 精选优质企业推荐官

2026性价比之选河池黄金回收铂金回收白银回收靠谱诚信店铺推荐_转自TXT - 亦辰小黄鸭

如何设计 Agent Harness 的默认行为与异常处理

RKNN Model Zoo实战：MobileSAM图像分割在瑞芯微平台的完整部署指南

Windows文件元数据管理终极指南：解锁任意文件类型的标签与属性编辑能力

拯救者笔记本性能调优神器：Lenovo Legion Toolkit提升30%游戏体验的完整指南