当前位置: 首页 > news >正文

【第二十九周】机器学习笔记三十

摘要

本周学习了强化学习中是如何对actor的行为进行评估的,了解了critic的基本概念与工作原理,并进一步学习了Advantage Actor-Critic架构

abstract

This week, I learned about how the actor's behavior is evaluated in reinforcement learning, understood the basic concepts and working principles of the critic, and further studied the Advantage Actor-Critic architecture.

Critic

Critic 在强化学习系统中用于评估和预测价值。通过提供对未来回报的预测来指导 Actor(策略)的学习和优化。 它使得强化学习的学习过程更加稳定和高效

Critic 如何工作?

  1. 观察:Critic 观看 Actor 与环境互动,看到大量的(状态,动作,奖励,下一个状态)数据。

  2. 学习:Critic 使用这些数据,通过时间差分误差等方法来训练自己,目标是让自己对价值的预测越来越准确

  3. 反馈:Critic 将这个预测误差(TD Error)或梯度信息反馈给 Actor。这个误差是 Actor 学习的核心信号:

    • 如果误差为正:说明实际结果比预期好,Actor 应该加强导致这个结果的行为。

    • 如果误差为负:说明实际结果比预期差,Actor 应该减弱导致这个结果的行为。

强化学习两种方法

强化学习中两个核心概念:蒙特卡洛方法时序差分学习。蒙特卡洛(MC):通过完整轨迹的真实回报来更新价值估计。时序差分(TD):通过相邻状态的估计值差分来更新价值估计。

特性蒙特卡洛时序差分
更新时机必须等到一幕结束每步之后立即更新
学习目标实际累积回报 GtGt​TD目标 Rt+1+γV(St+1)Rt+1​+γV(St+1​)
偏差/方差无偏,高方差有偏,低方差
对环境的了解不需要环境模型不需要环境模型(都是无模型方法)
收敛性收敛性较好,但慢通常收敛更快,但不一定收敛到全局最优
核心概念采样,完整回报自举,TD误差

Advantage Actor-Critic

A2C的核心是引入优势函数的Actor-Critic架构。Critic学习状态价值V(s)作为基线,通过TD误差估计优势函数A(s,a)=Q(s,a)-V(s),衡量动作相对平均水平的优劣。Actor使用优势估计而非原始回报更新策略,大幅降低方差。这种"评估优势+策略优化"的双网络结构,使智能体既获得低方差更新信号,又能精确分配动作价值,成为现代策略梯度算法的稳定基础。

http://www.jsqmd.com/news/359528/

相关文章:

  • 小马智行与摩尔线程战略合作,强强联合能改变什么?
  • SSM球类体育用品商城系统9xsh4(程序+源码+数据库+调试部署+开发环境)
  • Autodesk Inventor professiona
  • “我们数据太少,做不了风控?”——这可能只是个借口
  • SSM人才猎聘系统j9d6n(程序+源码+数据库+调试部署+开发环境)
  • 变量IV值高到“爆表”,是发现宝藏还是踩中陷阱?
  • Autodesk 3ds Max
  • (新卷,100分)- 处理器问题(Java JS Python)
  • FTP文件传输客户端SmartFTP
  • 基于SSA-BPNN+BPNN定位附Matlab代码
  • 基于Matlab的CNN竞争神经网络的聚类分析附Matlab代码
  • RepairKit(系统修复维护工具包)
  • 16.this指针
  • 从入门到精通:大数据环境下的数据脱敏实战指南
  • 28.FPGA实验报告模板(串口为例)
  • AI原生应用如何改变事实核查行业?深度剖析
  • LLMs之Benchmark:《CL-bench: A Benchmark for Context Learn》翻译与解读
  • 大数据时代:Hadoop架构原理全揭秘
  • WordPress从经典编辑器升级到古腾堡编辑器
  • Linux网络编程:深入探索服务器端获取客户端地址结构的艺术
  • AI代理落地踩坑实录:别光看输出,得看它干了啥!手把手教你搭建评估体系
  • 2026年全球电子胶品牌王者有哪些!顶级防霉+环保合规企业盘点 - 品牌推荐2026
  • 高等教育AI辅助教学:从理论到实践的架构设计全攻略
  • 从ETL到AI:大数据规范性分析的技术演进路线
  • CNN-LSSVM多输入单输出回归预测附Matlab代码
  • 2026年全球喷胶品牌王者有哪些!顶级防霉+环保合规企业盘点 - 品牌推荐2026
  • 替换js代码指定字符串
  • 2026年全球MS胶品牌王者有哪些!顶级防霉+环保合规企业盘点 - 品牌推荐2026
  • Agentic AI提示工程的“避坑指南”:优化交互反馈的8个注意事项
  • 2026年全球双组份中空玻璃胶品牌王者有哪些!顶级防霉+环保合规企业盘点 - 品牌推荐2026