当前位置: 首页 > news >正文

大模型学习基础(五) 强化学习(Reinforcement Learning,RL)初步

前面的文章简单介绍过,传统的监督学习所使用的数据集是(特征,标签),有“标签”即明确的知晓正确的输出应该是什么。而强化学习所面临的问题并不一定有严格的正确答案,而只是知晓一个大概正确的方向:如在下围棋时,第一步下在哪里?显然这个问题没有一个明确答案,这个时候使用强化学习显然比监督学习更加合适,因为监督学习需要的是具有明确答案作为标签的数据集。

强化学习的结构逻辑模型可以用上图简单表示:

三要素:1.Actor,即模型;2.Environment,环境 3.Action,即模型的输出

Environment输入Observation给Actor,Actor输出一个Action给Environment,Environment回复一个Reward(奖励)分数给Actor,接着继续把Observation交给Actor,如此循环。模型训练的要求就是使得Reward最大,代表我们找到了最优的模型。

对于模型来说,Environment输入Observation给Actor,即代表模型从环境中提取到了状态信息,根据这个状态信息模型来判断下一步的动作;而模型输出的是一个分类的结果,即多个动作对应多个不同的概率;在输出概率分布以后要添加一定的随机性,使得每次的输出结果具有差异性,然后选择最大概率所对应的动作。

模型在选择一个动作之后,这个动作实际是对Environment发生,相应的Environment会给模型一个回馈Reward,然后再给模型一个新的Observation,模型继续选择新的动作,循环此过程。这个过程中的Reward会被累积下来,Reward越大,代表模型做出的动作越好。用表示reward累计,因为我们希望R越大越好,所以R取反可以直接作为损失函数,使得最小化损失和最大化奖励统一起来。

整个强化学习的过程逻辑图如下:

需要注意的是,只有Actor本身是神经网络结构,而Env和Reward都是黑盒子,这意味着我们只能优化Actor的参数,而Env和Reward中的参数是无法优化的。有了通过Reward定义的损失函数,有了模型Actor,显然我们可以通过常规的深度学习的方法来优化Actor中的参数。

那么如何使得在给定S1时,模型能输出指定的值a?

这个时候的输出是可以明确的,这样的训练可以使用监督学习完成。可以通过经典的多分类问题思路来处理,即用交叉熵定义损失函数。如果不想要模型输出指定的值a,只需要对损失函数取反。

而实际的情况是,环境的状态S是由多个Si构成的,每训练一组S-a即训练一个多分类问题,把这些问题的损失函数(交叉熵)加在一起,即可训练出在不同的状态下应该使用什么动作。这里读者可能会有疑问:上述介绍的问题似乎都是监督学习问题,即可以明确正确输出的标签,与reward又有什么关联呢?这个问题将在下一讲给出答案。

http://www.jsqmd.com/news/84813/

相关文章:

  • REST--GCA
  • linux查看内存
  • SPM设置原点
  • 30亿参数引爆企业智能升级:IBM Granite-4.0微型混合模型如何重构本地化AI部署生态
  • Qwen3-VL多模态大模型全解析:技术突破、部署实践与行业应用指南
  • 27 岁从传统行业裸辞转网络安全,我是如何做到的?
  • 腾讯开源双引擎AI模型:混元3D开创多模态创作新纪元,千倍效率革命重塑数字内容生产
  • 效率提升25%,灵巧操作数采困境被「臂-手共享自主框架」解决
  • str.isalnum()
  • Arduino 数码管模拟值实验
  • 54.分析模式入门-解决复杂业务问题的建模技巧-提升建模能力
  • 一招教你在csdn博客上增加动画嵌入、视频插入、代码动画演示
  • 百度网盘资源解锁神器:告别提取码搜索烦恼的智能方案
  • 生成式搜索优化服务商口碑推荐
  • AI算力:驱动智能时代多元计算与高效调度的基础
  • AI知识库的构建:从数据采集、处理到高效检索的全流程解析
  • 当日总结(2025年12月13日)
  • Csharp学习笔记——常用类、集合框架、泛型、字典精华总结
  • 踝关节韧带损伤的管理与康复 综述
  • 55.物流场景实战-限界上下文+CQRS设计物流追踪系统-附完整架构设计
  • 56.架构阶段复盘-微服务拆分常见问题与解决方案-附问题诊断清单
  • ContextMenuManager:Windows右键菜单终极优化指南
  • 57.落地前准备-DDD项目团队分工与协作流程-附组织架构设计
  • 2025年12月毕业生最爱的6款降AI神器推荐(含免费查AI率工具)
  • 百度网盘直链解析工具:告别限速困扰的全新下载体验
  • 蚂蚁集团Ling-flash-2.0大模型登陆硅基流动平台 开启轻量化AI推理新纪元
  • 划分数据集
  • 深度解析GGUF格式:大模型本地部署的技术基石与量化实践指南
  • Maruti Key Programmer: Activate Lonsdor K518 Pro FCV License for European/American Auto Pros Owners
  • 时间序列的通道