当前位置: 首页 > news >正文

马尔可夫决策过程

定位强化学习最底层数学框架,所有强化学习问题几乎都可以抽象成 MDP,用来描述智能体在不确定环境里连续做决策、最大化长期收益的全过程。

一、前置:马尔可夫性质(MDP 的灵魂)

1. 定义

未来只由当前决定,和过去无关公式简写:

大白话

我下一步去哪,只看现在在哪,不记得之前走过什么路,无记忆性。


二、MDP 完整 5 大核心要素(必背)

标准五元组:(S,A,P,R,γ)

1. S:状态空间 State

  • 智能体所有能处于的环境状态集合
  • 例子:迷宫里的每个格子、游戏画面、机器人位置

2. A:动作空间 Action

  • 智能体所有能执行的动作
  • 例子:上下左右、开火、前进、左转

3. P:状态转移概率 Transition

P(s'|s,a)

  • 含义:当前在状态 s,执行动作 a,跳到下一个状态 s' 的概率
  • 代表环境随机性:同样动作不一定到同一个地方

4. R:即时奖励 Reward

R(s,a,s')

  • 做完动作立刻拿到的瞬时分数
  • 正向奖励:加分(吃到食物、到达终点)
  • 负奖励:扣分(撞墙、掉坑)

5. γ:折扣因子 Discount factor

范围:{0,1}

  • 作用:压低未来奖励权重
  • 越接近 1:越看重长远收益
  • 越接近 0:只看眼前即时奖励

三、MDP 完整交互流程(时序过程)

  1. 时刻 t:智能体观测当前状态 s_t
  2. 智能体根据策略选择动作 a_t
  3. 环境依据转移概率 P 给出下一个状态 s_{t+1}
  4. 智能体获得即时奖励 r_t
  5. 进入 t+1 时刻,重复循环直到终止

四、核心关键概念(强化学习必考)

1. 策略 Policy

策略 = 智能体的做事规则

  1. 确定性策略:pi(s)=a同一个状态永远选同一个动作
  2. 随机性策略:pi(a|s)状态 s 下选动作 a 的概率

MDP 最终目标:找到最优策略

2. 折扣总回报 Return

从 t 时刻往后所有奖励总和(带折扣)

  • 不是只看当下奖励,是未来所有收益总和

3. 状态值函数 V(s)

含义:从状态s出发,遵循当前策略,能拿到的期望长期总回报

  • 用来评判:这个状态好不好、值不值得待

4. 动作值函数 Q(s,a)

含义:在状态s下执行动作a,后续能拿到的期望长期总回报

  • 用来评判:在这个状态选这个动作好不好
  • 深度学习里最常用:DQN 就是拟合 Q 值

五、MDP 核心公式:贝尔曼方程(Bellman)

1. 状态值函数贝尔曼期望方程

通俗翻译当前状态的价值 = 立刻拿到的奖励 + 下一个状态价值打折扣后的期望值

2. 动作值函数贝尔曼方程

3. 最优贝尔曼方程

去掉策略,直接取最大收益:

含义:每个状态都选最优动作,得到全局最大价值


六、MDP 分类

  1. 完全可观测 MDP智能体能看清全部环境状态 = 绝大多数强化学习场景
  2. 部分可观测 POMDP只能看到局部信息(看不到全局),难度更高

七、MDP 常用求解方法

  1. 动态规划 DP(已知环境模型 P、R)
    • 策略迭代
    • 值迭代
  2. 蒙特卡洛 MC(靠采样轨迹算均值)
  3. 时序差分 TD(最实用,TD0、TDλ)
  4. 深度强化学习(未知环境,拟合 Q/V)
    • DQN、PPO、A3C 全部基于 MDP

八、生活化极简例子(秒懂)

例子:上班通勤 MDP

  • 状态 S:在家、在路上、到公司
  • 动作 A:坐地铁、打车、走路
  • 转移 P:雨天打车容易堵车(转移概率变了)
  • 奖励 R:准时到 + 10,迟到 - 20,花钱 - 5
  • 折扣 γ:更在意今天上班,不在意一周后
  • 策略:晴天地铁,雨天打车
  • 值函数 V (在家):评估从家里出发整体好不好

整个通勤过程就是标准马尔可夫决策过程


九、总结一句话

马尔可夫决策过程 MDP = 满足无记忆性的环境 + 智能体动作选择 + 即时奖励 + 长期收益折算,是一切序列决策、强化学习问题的统一数学模型。

http://www.jsqmd.com/news/845455/

相关文章:

  • 2026年成都GEO服务商盘点推荐:多家机构深度对比,助力品牌AI可见度提升 - 资讯焦点
  • Mi-Create:三步打造专属小米手表表盘,零基础也能成为设计达人
  • OpenSTA静态时序分析工具:从入门到精通的完整指南
  • 社会学论文降AI工具免费推荐:2026年社会学毕业论文AIGC超标4.8元一次过知网完整指南
  • 2026性价比之选福州黄金回收铂金回收白银回收靠谱诚信店铺推荐_转自TXT - 亦辰小黄鸭
  • 百度网盘macOS版加速插件完全指南:三步破解限速限制
  • 2026性价比之选合肥黄金回收铂金回收白银回收靠谱诚信店铺推荐_转自TXT - 亦辰小黄鸭
  • 从双目相机到3D地图:视差图转点云在机器人SLAM中的实战应用
  • 一键修复Windows程序运行库:告别“应用程序无法启动“的终极方案
  • 2026性价比之选抚州黄金回收铂金回收白银回收靠谱诚信店铺推荐_转自TXT - 亦辰小黄鸭
  • 2023B卷,书籍叠放
  • 2026企业微信怎么开通?一站式开通指南与联系方式 - 品牌2025
  • 怎样给照片去背景?2026 图片抠图方法对比|免费在线工具实测
  • IO杂记I
  • 2026年沃尔玛购物卡回收平台深度评测报告 - 速递信息
  • 在WSL2上5分钟搞定Kafka 3.6.0伪集群:从单实例到三节点保姆级配置
  • 量化分析师开始用 Claude Code 挖 Alpha 了,而且出了一篇 arXiv 论文
  • 2026性价比之选阜阳黄金回收铂金回收白银回收靠谱诚信店铺推荐_转自TXT - 亦辰小黄鸭
  • 2026年全国仓库货架厂家哪家好 聚焦智能仓储 覆盖多区域 技术过硬售后及时 - 深度智识库
  • 实用指南:5分钟搞定Minecraft MASA模组中文汉化
  • 保姆级教程:在Ubuntu 20.04 ROS Noetic下,从零搭建UR5机械臂的Gazebo仿真环境
  • 智慧铁路轨道缺陷识别 铁路相关计算机视觉数据集 铁轨裂缝识别 铁轨剥落识别 铁轨沟槽识别 铁轨凹陷图像识别数据集 图像识别10189期
  • 别再只用ARIMA了!用Python+statsmodels搞定SARIMA预测电商销量(附完整代码)
  • 2026性价比之选赣州黄金回收铂金回收白银回收靠谱诚信店铺推荐_转自TXT - 亦辰小黄鸭
  • 2026年贵州高考志愿填报与学业规划全链条服务深度指南:如何用150亿参数AI破解滑档困局 - 精选优质企业推荐官
  • 2026性价比之选河池黄金回收铂金回收白银回收靠谱诚信店铺推荐_转自TXT - 亦辰小黄鸭
  • 如何设计 Agent Harness 的默认行为与异常处理
  • RKNN Model Zoo实战:MobileSAM图像分割在瑞芯微平台的完整部署指南
  • Windows文件元数据管理终极指南:解锁任意文件类型的标签与属性编辑能力
  • 拯救者笔记本性能调优神器:Lenovo Legion Toolkit提升30%游戏体验的完整指南