当前位置: 首页 > news >正文

强化学习论文(A3C)

介绍:

  • 核心思想主要是利用多线程的方法,让多个环境并行的运行,在探索性策略的情况下,让agent能够在每一个step都有更多的探索性,尽快找到最优策略。
  • 抛弃DQN,DDPG,等算法中的replay buffer,采用on-line的方式学习。replay buffer会将数据存储起来供学习,其数据来源于旧的policy,on-line的方式的数据来自于刚刚更新的新policy。
  • 在多线程的情况下,每个agent有独立的环境,也面对不同的state,在多核cpu上,每个agent以不同的策略独立探索,大大增加了数据的多样性,同时数据天然的是相互独立的。
  • 网络参数是在线程之间异步更新的,而且是Lock free的,不需要互斥。

该方法可以用在不同的算法上,论文中介绍了四种算法的异步应用:

Async Q-Learning和Async n-Step Q-Learning:

在主线程上维护一个统一的global net,每个线程有独立的local net。当线程内满足terminal或特定步数后,更新local net。当所有线程的总步数满足特定条件后,将local net的参数复制给global net。

在n-step Q-Learning中,线手机n步的数据,再更新参数。这里n-step的最后一步的return计算方式和中间步骤的计算方式不太一样,最后一步是

而中间步是:

且需要每一步累计梯度。

Async one-Step SARSA和Async n-Step SARSA

和Async Q-Learning基本差不多,主要是把TD-target从变成了

Async Advantage Actor-critic

一个global的公共critic用来输出q-value,一个global的公共actor用来输出policy

这里也采用了n-step的方法,先收集一部分数据。也因此在更新过程中,它的优势函数就用

代替了标准A2C算法中的

同时,将策略的entropy添加的目标函数中,可以组织网络过早的收敛到次优解,从而改善探索性。包含entropy的目标函数是:

其中H就是策略的entropy,超参数β控制熵正则化项的强度。

http://www.jsqmd.com/news/662849/

相关文章:

  • 终极指南:2026 年最值得关注的 10 个 AI Agent Harness Engineering 开源项目
  • STM32 HAL库驱动MAX31855:从SPI配置到负温度精准读取的实战解析
  • 更加现代的Deep Learning接入SLAM的方法
  • Arduino随机数探秘:从random()到randomSeed()的实战指南
  • 20252817 2025-2026-2 《网络攻防实践》实践五报告
  • music21节奏与时长管理:精确控制音乐时间要素
  • 从入门到精通:stress-ng全方位系统压力测试实战指南
  • 2026届最火的六大AI论文神器推荐
  • SCI 1区新范式:基于GADF+SwinTransformer-CBAM+BiLSTM的多模态时序图像诊断模型
  • 从删库到跑路?不,先搞懂Linux文件系统怎么找回你的数据
  • Windows上运行Android应用的3种革命性方法:告别模拟器的时代已来
  • Redis 持久化策略对性能的影响
  • AtCoder Beginner Contest 454 ABCDE 题目解析
  • Spoon连接ClickHouse实战:从驱动缺失到稳定配置的完整指南
  • 避坑指南:libmodbus从机开发中,modbus_receive阻塞与多线程处理的正确姿势
  • mdcat与mdless:如何通过符号链接实现智能分页功能
  • 如何在Zotero中为PDF文档添加可搜索文本层:Zotero-OCR插件完全指南
  • EDUSRC一个文档到十八万条sfz泄露和命令执行
  • 2026成都别墅装修公司推荐,成都别墅装修公司十大品牌推荐 - 推荐官
  • CMOS图像传感器核心技术解析:从像素结构到曝光控制
  • 看长帖不想动手?用这行代码
  • Beyond Compare 5 密钥生成器:免费激活终极教程
  • Anthropic推出Claude Design,美国设计软件龙头Figma股价应声下跌6.84%
  • Matlab科研绘图实战:面积填充图(area)的进阶配色与多场景应用
  • A1278老将再战:从官方止步High Sierra到OCLP解锁macOS Sequoia的完整指南
  • The Last Day Of The Life
  • USRP B210 FPGA顶层接口设计解析:从代码到硬件连接的实战指南
  • 2026 高温炉选购指南:七大品牌实力盘点,箱式 / 管式 / 气氛炉怎么选更靠谱 - 品牌推荐大师
  • # linux红帽教程-手把手教学
  • 2026年亲测10款降AI率神器:规避AI检测保质量的最优解,附论文降AI避坑指南 - 降AI实验室