VALSE 2026报告分享|智能体基座大模型的强化扩展框架与算法
2026年视觉与学习青年学者研讨会(VALSE 2026)于5月8日到10日在武汉国际会议中心举行。本公众号全方位地对会议的热点进行了总结,方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述,可能与报告人的原意有所不同,敬请读者理解;如报告人认为文章与自己报告的内容差别较大,可以联系公众号删除。
本文主要对清华大学东昱晓教授所做的报告《智能体基座大模型的强化扩展框架与算法》进行分析与总结。
本推文的作者为王一鸣,审核为龚裕涛和黄忠祥。
一、报告人介绍
东昱晓,清华计算机系副教授,主要研究方向是大模型预训练、强化训练、数据挖掘,曾工作于脸书人工智能和微软总部研究院。
二、报告概览
基础大模型在意图理解、深度推理、目标规划等方面展现出强大的泛化能力,为智能体的研究和应用提供了通用模型基座。报告将分享我们在基座大模型智能体强化学习方向的探索。在训练框架层面,提出多轮、多任务智能体强化学习框架AgentRL,支持异步高效训练,实现异构环境的可扩展强化学习(RLScaling);在应用场景层面,构建手机智能体MobileRL和上网智能体 WebRL 强化扩展算法,提升大模型在复杂智能体任务中的交互能力。相关工作应用于多个大模型和智能体产品等。
三、底层视觉任务分类
1. 智能体正经历两大范式跃迁,也带来了巨大挑战
过去5年,大语言模型在单轮问答与推理基准任务上实现精度跨越式提升,覆盖常识问答、学科考试、数学竞赛等场景,如图1所示。随着多轮任务的需求不断增加,大模型的技术范式从“预训练+有监督微调”逐步向“推理增强”演进。
图1 近年大模型在各项基准测试上的得分
同时,大模型从单纯的问答工具进化为了Agent智能体。LLM-as-Agent不仅需要大模型有着强大的推理能力,还需适配操作系统、数据库、Web浏览、移动GUI等丰富异构环境。
而上述的范式演进带来了多种挑战,具体有以下三个方面:
(1)单轮到多轮面临同步轨迹采样效率低、状态空间大且模型探索能力衰减等问题。
(2)单环境到多异构环境则存在统一适配难、任务间相互干扰、学习速率不均导致训练不稳定等问题。
(3)Web Agent面临训练数据不足、反馈稀疏与灾难性遗忘问题,移动GUI Agent则受困于稀疏奖励、任务难度波动与采样瓶颈。
2. 垂直场景智能体的强化学习解决方案
针对Web与移动GUI两大核心场景,东教授提出了针对性强化学习方案。WebRL是面向Web交互任务的自进化在线课程强化学习框架,通过Actor与环境交互采样轨迹、Critic评估质量、自进化任务模块优化失败任务、经验回放池存储高质量轨迹,结合KL约束完成策略更新。实验表明,WebRL在长时序高复杂度任务上显著优于基线方法,10步以上长周期任务优势尤为突出。
MobileRL针对移动GUI交互任务设计,分为推理预热与强化学习训练两个阶段。其核心创新包括失败课程过滤,通过在线统计任务难度下调无解任务权重,提升资源利用率。以及难度自适应正回放,维护高质量轨迹缓冲池,通过混合采样平衡探索与利用,提升训练稳定性。
3. 通用多轮多任务智能体的规模化训练框架:AgentRL
接下来,东教授提出了如图2所示的的AgentRL框架。AgentRL是端到端的多轮多任务智能体强化学习训练框架,从基础设施与算法层面解决规模化训练瓶颈。基础设施上采用全异步架构,实现轨迹采样与模型训练并行。通过容器化部署实现资源分配与故障隔离。设计集中式全局控制器支持数千个并行训练episode的调度。算法上提出任务优势归一化方法,对每个任务的token级优势值进行零均值单位方差处理,有效解决多任务学习失衡问题,提升训练稳定性与任务通过率。
图2 AgentRL框架
4. 智能体训练的核心决定要素
在演讲的最后,东教授提出了智能体训练的核心决定要素,即数据决定了交互环境质量与利用效率基础,算法核心决定数据与环境利用效率,支撑训练稳定与规模化,算力作为底层支撑,最终决定训练与推理的执行效率。
四、总结
报告系统阐述了大语言模型驱动交互智能体的范式演进、核心挑战与强化学习方案。报告指出智能体正从单轮单环境向多轮多异构环境跃迁,面临基础设施与算法层面的双重瓶颈。针对Web与移动GUI场景,提出了WebRL、MobileRL专项强化学习方案,并构建了通用规模化训练框架AgentRL。报告指出数据、算法、算力是决定智能体效果与效率的三大核心支柱。
