当前位置: 首页 > news >正文

强化学习·导论

任务类型:单元式和持续型任务

  • 分为单元式(Episodic)和持续型任务
  • 单元式任务存在一个开始和结束状态
  • 持续型任务没有结束状态。

探索和利用

  • 探索是通过尝试随机行动来探索环境,以获取更多关于环境的信息。
  • 利用是利用已知信息以最大化回报。

解决强化学习的两类方法

基于策略的方法

  • 直接学习一个最佳的策略,然后根据策略指导行动,间接的让智能体选择有价值的状态
  • 这个策略可能是确定性的(返回一个确定的动作),可能是随机的(返回一个动作函数的概率分布)。


基于价值的方法

  • 在基于价值的方法中,我们不是学习策略函数,而是学习一个价值函数,将状态映射到处于该状态的期望值。

  • 状态的价值是代理人在该状态开始并按照我们的策略行动时,能获得的预期贴现回报。

  • “按照我们的政策行事”只是意味着我们的政策“归属于价值最高的国家”。

深度强化学习中"深度"的含义

http://www.jsqmd.com/news/409301/

相关文章:

  • 一些喜欢的 ACG 曲
  • 灰色关联度模型正负性问题的研究及其改进附Matlab代码
  • 小程序商城开发怎么选?5 家优质平台实测推荐,避开低价陷阱不踩雷 - 企业数字化改造和转型
  • 基于动态神经网络NARX/GRNN/BP/RBF的IBM收盘价预测-时间序列预测附Matlab代码
  • 性价比封神!微信小程序开发平台排名,零隐形消费平台优先选 - 企业数字化改造和转型
  • 基于经验模态分解和粒子群优化支持向量机(EMD+PSO_SVM)大坝变形预测附Matlab代码
  • Metasploit新手入门|从安装到首次漏洞探测
  • 高效科研工具:9大论文目录生成软件,自动更新功能详解
  • 中小商家首选|十大小程序开发公司排名,年费低至700元 - 企业数字化改造和转型
  • 学术研究必备:盘点9款智能目录生成工具,一键自动更新
  • Sass/SCSS继承深度解析
  • Metasploit常用命令速查备忘单(高频实操版)
  • 题解:AcWing 884 高斯消元解异或线性方程组
  • 2026-2-24 论文
  • linux+lvgl工程保存配置读取配置
  • XHS Agent 开发博客:用 AI 自动化小红书内容运营的技术实践
  • .net 8程序如何在信创的arm64架构下运行【nuget包如何判断能不能在arm架构跑呢】
  • 学术写作神器:9大自动目录生成软件,更新功能全面解析
  • Metasploit实战常见问题排查(10个高频问题,新手必看)
  • 高效论文工具:9款智能目录生成软件,支持实时自动更新
  • 题解:AcWing 883 高斯消元解线性方程组
  • 科研必备:9款论文目录生成工具,智能更新功能全解析
  • 2026最新Java毕设选题大全|零基础可做+源码现成+答辩稳过(软件专业专属)
  • cursor日志0224
  • HWiNFO(硬件检测工具)
  • 图片浏览器 XnViewMP
  • 闪贴键11
  • 中国AI发展趋势深度解读(非常详细),从小白到行业专家,收藏这一篇就够了!
  • 题解:AcWing 204 表达整数的奇怪方式
  • 极度注重隐私的浏览器