当前位置: 首页 > news >正文

VALSE 2026报告分享|智能体基座大模型的强化扩展框架与算法

2026年视觉与学习青年学者研讨会(VALSE 2026)于5月8日到10日在武汉国际会议中心举行。本公众号全方位地对会议的热点进行了总结,方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述,可能与报告人的原意有所不同,敬请读者理解;如报告人认为文章与自己报告的内容差别较大,可以联系公众号删除。

本文主要对清华大学东昱晓教授所做的报告《智能体基座大模型的强化扩展框架与算法》进行分析与总结。

本推文的作者为王一鸣,审核为龚裕涛和黄忠祥。

一、报告人介绍

东昱晓,清华计算机系副教授,主要研究方向是大模型预训练、强化训练、数据挖掘,曾工作于脸书人工智能和微软总部研究院。

二、报告概览

基础大模型在意图理解、深度推理、目标规划等方面展现出强大的泛化能力,为智能体的研究和应用提供了通用模型基座。报告将分享我们在基座大模型智能体强化学习方向的探索。在训练框架层面,提出多轮、多任务智能体强化学习框架AgentRL,支持异步高效训练,实现异构环境的可扩展强化学习(RLScaling);在应用场景层面,构建手机智能体MobileRL和上网智能体 WebRL 强化扩展算法,提升大模型在复杂智能体任务中的交互能力。相关工作应用于多个大模型和智能体产品等。

三、底层视觉任务分类

1. 智能体正经历两大范式跃迁,也带来了巨大挑战

过去5年,大语言模型在单轮问答与推理基准任务上实现精度跨越式提升,覆盖常识问答、学科考试、数学竞赛等场景,如图1所示。随着多轮任务的需求不断增加,大模型的技术范式从“预训练+有监督微调”逐步向“推理增强”演进。

图1 近年大模型在各项基准测试上的得分

同时,大模型从单纯的问答工具进化为了Agent智能体。LLM-as-Agent不仅需要大模型有着强大的推理能力,还需适配操作系统、数据库、Web浏览、移动GUI等丰富异构环境。

而上述的范式演进带来了多种挑战,具体有以下三个方面:

(1)单轮到多轮面临同步轨迹采样效率低、状态空间大且模型探索能力衰减等问题。

(2)单环境到多异构环境则存在统一适配难、任务间相互干扰、学习速率不均导致训练不稳定等问题。

(3)Web Agent面临训练数据不足、反馈稀疏与灾难性遗忘问题,移动GUI Agent则受困于稀疏奖励、任务难度波动与采样瓶颈。

2. 垂直场景智能体的强化学习解决方案

针对Web与移动GUI两大核心场景,东教授提出了针对性强化学习方案。WebRL是面向Web交互任务的自进化在线课程强化学习框架,通过Actor与环境交互采样轨迹、Critic评估质量、自进化任务模块优化失败任务、经验回放池存储高质量轨迹,结合KL约束完成策略更新。实验表明,WebRL在长时序高复杂度任务上显著优于基线方法,10步以上长周期任务优势尤为突出。

MobileRL针对移动GUI交互任务设计,分为推理预热与强化学习训练两个阶段。其核心创新包括失败课程过滤,通过在线统计任务难度下调无解任务权重,提升资源利用率。以及难度自适应正回放,维护高质量轨迹缓冲池,通过混合采样平衡探索与利用,提升训练稳定性。

3. 通用多轮多任务智能体的规模化训练框架:AgentRL

接下来,东教授提出了如图2所示的的AgentRL框架。AgentRL是端到端的多轮多任务智能体强化学习训练框架,从基础设施与算法层面解决规模化训练瓶颈。基础设施上采用全异步架构,实现轨迹采样与模型训练并行。通过容器化部署实现资源分配与故障隔离。设计集中式全局控制器支持数千个并行训练episode的调度。算法上提出任务优势归一化方法,对每个任务的token级优势值进行零均值单位方差处理,有效解决多任务学习失衡问题,提升训练稳定性与任务通过率。

图2 AgentRL框架

4. 智能体训练的核心决定要素

在演讲的最后,东教授提出了智能体训练的核心决定要素,即数据决定了交互环境质量与利用效率基础,算法核心决定数据与环境利用效率,支撑训练稳定与规模化,算力作为底层支撑,最终决定训练与推理的执行效率。

四、总结

报告系统阐述了大语言模型驱动交互智能体的范式演进、核心挑战与强化学习方案。报告指出智能体正从单轮单环境向多轮多异构环境跃迁,面临基础设施与算法层面的双重瓶颈。针对Web与移动GUI场景,提出了WebRL、MobileRL专项强化学习方案,并构建了通用规模化训练框架AgentRL。报告指出数据、算法、算力是决定智能体效果与效率的三大核心支柱。

http://www.jsqmd.com/news/910301/

相关文章:

  • DOTA-SA-FAPi(3049080-09-0)科研试剂技术参数与特性说明
  • 小程序制作平台哪家最实惠?五款高性价比小程序开发商推荐 - FaiscoJeff
  • Seedance 2.0 开启 2K 输出后,我实测了一轮:画质确实更细,但时间成本也上来了
  • SVN提交后如何修改日志
  • 黄金去哪回收最靠谱?2026 无锡黄金回收选择方法 - 合扬奢侈品交易中心
  • 第23篇|深浅色适配:颜色资源不是装饰,而是可维护系统
  • 惠州黄金上门回收平台主流大盘点2026 - 黄金回收
  • 2026沃尔玛购物卡回收实测测评!4大正规平台对比,按需选不踩坑 - 博客万
  • 2026苏州启获客怎么样?解析GEO优化服务核心价值 - 品牌排行榜
  • 免检木箱真的能免检吗?东莞布伦特包装一次说清楚:免检、熏蒸、真空木箱的区别与选型指南 - 资讯焦点
  • 从AD/ADS转战Cadence OrCAD 17.4:一个电磁场硕士的软件迁移实战笔记(附新建工程踩坑点)
  • 2026年无锡滴滴跑网约车官方租车门店地址6月更新 - 速递信息
  • 大型设备怎么打包才安全?东莞布伦特包装:8支驻厂服务队 8000平工厂,专治“非标重货”包装难题 - 资讯焦点
  • 无锡回收爱马仕包包 如何找到出价公道的店家 - 合扬奢侈品交易中心
  • 2026年新疆高品质深度游与研学党建红培定制服务完全指南 - 年度推荐企业名录
  • WTG系统用着用着蓝屏了?别慌,这可能是你热插拔U盘惹的祸(附系统重置与文件抢救指南)
  • 基于MOSFET的防反接保护电路:原理、设计与实战
  • 基于ESP32与SA818模块构建可编程2米波段无线电实验平台
  • 石榴花开映槐荫、和融同心润民生
  • 2026年5月29日鹰潭黄金回收价格参考与避坑指南 - 润富黄金珠宝行
  • 2026 年九华山好吃徽菜馆口碑推荐榜:九华山必吃美食、九华山农家土菜、九华山实惠餐饮、九华山必打卡的土菜馆选择指南,食材、口味、服务三维度权威解析 - 海棠依旧大
  • 2026年5月最新|企业必看:宁波GEO优化公司哪家靠谱?主流服务商综合实力解析 - 商业新知
  • 微信怎么发起投票功能【新手实测简单教程】 - 微信投票小程序
  • 赣州黄金回收市场调研:5家连锁门店资质测评+2026实时金价+客户真实反馈 - 润富黄金珠宝行
  • Fluent仿真翻车实录:用了NIST真实气体模型,结果却不收敛?这7个坑我帮你踩过了
  • 基于WS2812B与ESP8266的大型可编程LED螺旋灯制作全攻略
  • League Akari:基于LCU API的英雄联盟智能工具集技术深度解析
  • Mac + 手机 + 多电脑如何同步同一份文件夹?
  • 基于ESP32与MAX7219的复古LED点阵机架显示器DIY全攻略
  • 设备出口包装怕卡关?东莞布伦特包装:从国标参编到IPPC出证,一站式解决出口木箱合规难题 - 资讯焦点