当前位置: 首页 > news >正文

【ppo】强化学习ppo训练调参

ppo特点

在策略更新时,限制新旧策略差异,避免一步更新把策略推翻
这意味着:

  • ppo 天然偏保守
  • 一旦策略早期形成“错误偏好”,后续很难纠正
  • 奖励设计和 early-stage 行为分布,决定成败

奖励函数

  • 首先目标奖励要大、终局错误惩罚也需要大
  • 每一步应该有小奖励/惩罚指导模型该前进的方向,但不要大过整体目标的奖励/惩罚;同时应鼓励探索或者绕路,这就应该设置随步数增长而衰减的奖励/惩罚

多阶段奖励函数

对于复杂问题的强化学习,可以先设置简单奖励函数训练模型,待模型学到简单规则后再修改奖励函数为更复杂的设计,让模型学到更精细化的动作

学习率

critic优化器的学习率要设置为明显小于actor优化器,actor的学习依赖于critic,如果critic不稳定会导致actor网络的震荡
可以参考以下学习率

actor_optimizer=torch.optim.Adam(actor_model.parameters(),lr=0.0005)critic_optimizer=torch.optim.Adam(critic_model.parameters(),lr=0.0001)

网络训练

训练频率

多个episode之后再训练一次网络,单个episode之后训练网络有可能会出现方差大,导致训练不稳定,多个episode训练网络时将advantage也平均会更稳定

训练阶段

ppo比较通用,但收敛较慢,对于前期难训练或者想加快训练的任务,可以使用ddqn等收敛快的模型先训练前期阶段,后改为使用ppo继续训练

actor/critic网络

对输入网络的数据进行归一化很重要,可以平滑特征曲面,更容易优化,减少局部最优解的情况

http://www.jsqmd.com/news/159857/

相关文章:

  • 最新上海旧房翻新装修公司推荐!口碑评分皆名列前 茅 - 速递信息
  • 程序员就业城市全攻略:最新
  • PyTorch-CUDA-v2.7镜像内置Python3.9,兼容主流AI框架
  • Reflect和Object相比有什么区别
  • 工业互联网平台下冲压工艺仿真的应用与实践
  • GitHub star飙升项目:PyTorch-CUDA-v2.7镜像获开发者一致好评
  • 软工实践学习 学期回顾——102301334黄伟圣
  • 2025年智能运维平台选型指南:四大主流厂商深度解析与推荐
  • MobaXterm无密码打开ssh
  • 计算机毕业设计springboot基于的高校人事管理系统的设计与实现 高校教职工数字化管理平台的设计与实现——基于SpringBoot框架 面向高校的人力资源信息管理系统构建与研发
  • win11安装麒麟arm64服务器系统
  • 带你体验月入过万网络安全工程的一天!
  • AIPD美国人工智能专利(1976-2023)
  • PyTorch-CUDA-v2.7镜像SSH远程连接教程,支持团队协作开发
  • Java:Jenkins
  • 计算机毕业设计springboot订餐管理系统 基于 SpringBoot 的智慧餐厅在线订餐平台 SpringBoot 驱动的数字化餐饮订单与座位预约系统
  • PyTorch-CUDA-v2.7镜像优化内存管理,提升大模型加载效率
  • msjet40.dll文件丢失损坏找不到 打不开程序软件问题 下载方法
  • 如何辨别GEO贴牌代理的真伪? - 源码云科技
  • PyTorch-CUDA-v2.7镜像预装torchvision,支持图像分类开箱即用
  • 2025中国风设计哪家强?十大4A全案公司口碑推荐,广东设计公司10年质保有保障 - 品牌推荐师
  • markdown写文档更方便:结合Jupyter与PyTorch-CUDA-v2.7输出实验报告
  • LLaMA-Factory:让大模型微调变得如此简单
  • 【ACM出版 | EI检索】第五届计算机、人工智能与控制工程国际学术会议(CAICE 2026)
  • 超越工具思维:数据管理部门如何借AI实现战略升维
  • 仅280页的《从零构建大模型》中文版终于来了,堪称教材界天花板
  • 2026年GEO优化服务商深度评测:TOP服务商全方位对比 - AIDSO爱搜
  • 上海交通大学《动手学大模型》编程实战课,课件ppt+教程
  • 零基础也能轻松掌握LLM!这份《大语言模型实战》可视化指南,吴恩达都点赞
  • 图片二维码是如何制作的?图片生成二维码技巧