当前位置: 首页 > news >正文

areal异步技术分析

仅分析了感兴趣的一部分。

3.10

AREAL

https://arxiv.org/pdf/2505.24298

全异步强化学习系统,支持agent rl和在线rl训练。

如何做到全异步的?

生成rollout和训练training解耦。

  • 流式生成:rollout workers持续不断生成新样本,不会等待一个批次的数据收集完毕,更新模型参数再继续生成下一批。
  • 及时更新:trainning workers一旦收集到足够的样本就立即更新模型参数。

具体展示:

同步系统流程:等所有 rollout 序列全部生成完毕->训练->更新权重->下一批rollout 序列生成...

问题:不同序列的长度差异很大,意味着最快的 GPU 生成完之后就干等着,整个系统被最慢的那条序列拖住。

异步系统流程:gpu1、gpu2生成数据,放入buffer->gpu3从buffer收集到足够进行更新的一个batch的数据,进行模型训练->训练完中断生成rollout,加载新权重->新序列继续生成(蓝色);对旧序列已经生成的那部分 token用新权重重新计算 KV Cache(绿色),新模型从断点继续生成接下来的内容->继续循环。

异步挑战如何解决?数据陈旧性+policy不一致问题

控制数据的"过期程度":有一个超参数 η 控制,如果生成端跑得太快、攒了太多数据而训练端还没消化,就拒绝新的生成请求,避免产出过于陈旧的数据。

Decoupled PPO:把行为策略和近端策略进行解耦

标准PPO公式为:

π_{old}扮演两个角色,生成数据的策略以及trust region 的中心(即 clip 的锚点)。

而在异步系统中,数据可能是生成的,而模型已经更新到了,要求模型不要离一个落后的版本太远,相当于在拖后腿。所以Decoupled PPO选择把两个角色拆给两个不同的策略,即行为策略和近端策略,修改后的目标函数如下

这里举例说明一下三个策略

假设当前训练到了第 10 版参数​​,而 buffer 里有一条轨迹是第 7 版生成的。

  • ​​:实际生成这条数据的旧策略
  • :一个较新的策略,作为 trust region 的中心(实践中取训练步开始前的参数)
  • :当前正在被优化的策略

第一项就是标准的重要性采样。数据是生成的,但我们要优化,所以用比率来修正分布偏移。这一项没有 clip,代表"无约束的策略梯度"。

第二项约束,分为两部分:

  • :约束不要太偏离近端策略,也就是真正训练前的那一版策略,而不是距离太远的旧策略
  • :这是一个修正系数,因为数据实际来自来自而不是,需要通过重要性采样把分布校正过来。

以 Decoupled PPO 本质上就是:在较新策略附近做标准 PPO 更新(约束范围),同时用重要性权重补偿数据来自旧策略这一事实(更正实际距离)。

半个句子用旧模型写,后半个用新模型写,这种数据为什么也能用来训练?拼接轨迹为什么也能用这个公式处理呢?

假设一条轨迹有 10 个 token,生成到第 4 个时被中断,换了新权重继续生成后面 6 个:

token 1-4: 由生成

token 5-10: 由生成

直觉上似乎没法定义——它到底是还是

那为什么能处理呢?因为Decoupled PPO 的公式中,只出现在重要性权重,而且是逐 token 计算的。所以我们可以构造的

  • token 1-4:
  • token 5-10:

所以其实每一项都是可以被计算的。

而从理论上也是可以证明的,对于任何这样的拼接轨迹,一定存在一个等价的,使得从这个中采样整条轨迹的概率,和拼接生成的概率完全相同。

因为自回归生成的概率可以分解为逐 token 的条件概率之积:

对于拼接轨迹:

现在我们构造一个,定义它在每个位置的条件概率为:

这个虽然不对应任何真实的单一模型参数,但它是一个数学上合法的策略——在每个位置,给定上文,它输出一个合法的 token 概率分布。而且从它采样出这条轨迹的概率和拼接生成的概率完全一致。

参考论文《AREAL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning》感谢claude老师的指导

http://www.jsqmd.com/news/465935/

相关文章:

  • 2026年DeepSeek写的论文AI率98%怎么办?实测从98%降到8%的全过程
  • 2026上海雅思培训机构推荐:科学选择备考机构指南 - 品牌排行榜
  • 2026年降AI工具性价比排行:花最少的钱降到最低
  • 排序查找,简单模板
  • 基于vue的校园兼职系统的设计与实现Python django flask
  • 操作教程 | DataEase基于插件实现数据源与飞书多维表格的对接
  • 车型大小识别系统报告与程序PPT
  • 新版本火绒拦截局域网共享
  • Python基于flask+uniapp微信小程序的校园访客来访登记平台
  • 论文AI率不达标别急着改,先看看这几款降AI工具
  • CVE-2026-28473
  • AI专著生成秘籍大公开!高效工具助你快速完成专业学术著作
  • 打造远距离无线链路:SI24R1+AT2401C组合方案详解与实战应用
  • CVE-2026-28474
  • 为什么论文降AI越改越像AI?80%的人都踩了这3个坑
  • Python基于flask+uniapp微信小程序的校园跑腿帮任务接单互助系统
  • CVE-2026-28478
  • 深度剖析:AI专著撰写工具,为你的学术之路添砖加瓦
  • 2026年Pallas引擎降AI效果实测:对比3款主流工具的推荐
  • Python基于flask+uniapp微信小程序的校园顺路代送任务跑腿平台
  • CVE-2026-28468
  • 巧用AI写专著,热门工具深度解读,快速搭建专著框架
  • OpenClaw能做什么?全面解析“小龙虾”AI的百变能力与必须警惕的安全红线
  • CVE-2026-27488
  • CVE-2026-28470
  • 人与AI的“数字性恋”:技术如何重塑亲密关系
  • 记一个优化改良的实施过程/纯QPainter实现的地图组件/支持天地图谷歌地图等
  • 【前端进阶之旅】火爆全网的“龙虾”OpenClaw,究竟是个什么神器?
  • SMC片状模塑料模具优质供应商推荐榜:smc大货车脚踏板模具、smc模压成型模具、smc模压模具加工、smc汽车模具选择指南 - 优质品牌商家
  • 净化门厂家深度测评:3家口碑之选,从6大维度拆解靠谱供应商标准