当前位置：首页 > news >正文

VALSE 2026报告分享｜智能体基座大模型的强化扩展框架与算法

news 2026/7/26 3:11:17

2026年视觉与学习青年学者研讨会（VALSE 2026）于5月8日到10日在武汉国际会议中心举行。本公众号全方位地对会议的热点进行了总结，方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述，可能与报告人的原意有所不同，敬请读者理解；如报告人认为文章与自己报告的内容差别较大，可以联系公众号删除。

本文主要对清华大学东昱晓教授所做的报告《智能体基座大模型的强化扩展框架与算法》进行分析与总结。

本推文的作者为王一鸣，审核为龚裕涛和黄忠祥。

一、报告人介绍

东昱晓，清华计算机系副教授，主要研究方向是大模型预训练、强化训练、数据挖掘，曾工作于脸书人工智能和微软总部研究院。

二、报告概览

基础大模型在意图理解、深度推理、目标规划等方面展现出强大的泛化能力，为智能体的研究和应用提供了通用模型基座。报告将分享我们在基座大模型智能体强化学习方向的探索。在训练框架层面，提出多轮、多任务智能体强化学习框架AgentRL，支持异步高效训练，实现异构环境的可扩展强化学习（RLScaling）；在应用场景层面，构建手机智能体MobileRL和上网智能体 WebRL 强化扩展算法，提升大模型在复杂智能体任务中的交互能力。相关工作应用于多个大模型和智能体产品等。

三、底层视觉任务分类

1. 智能体正经历两大范式跃迁，也带来了巨大挑战

过去5年，大语言模型在单轮问答与推理基准任务上实现精度跨越式提升，覆盖常识问答、学科考试、数学竞赛等场景，如图1所示。随着多轮任务的需求不断增加，大模型的技术范式从“预训练+有监督微调”逐步向“推理增强”演进。

图1 近年大模型在各项基准测试上的得分

同时，大模型从单纯的问答工具进化为了Agent智能体。LLM-as-Agent不仅需要大模型有着强大的推理能力，还需适配操作系统、数据库、Web浏览、移动GUI等丰富异构环境。

而上述的范式演进带来了多种挑战，具体有以下三个方面：

（1）单轮到多轮面临同步轨迹采样效率低、状态空间大且模型探索能力衰减等问题。

（2）单环境到多异构环境则存在统一适配难、任务间相互干扰、学习速率不均导致训练不稳定等问题。

（3）Web Agent面临训练数据不足、反馈稀疏与灾难性遗忘问题，移动GUI Agent则受困于稀疏奖励、任务难度波动与采样瓶颈。

2. 垂直场景智能体的强化学习解决方案

针对Web与移动GUI两大核心场景，东教授提出了针对性强化学习方案。WebRL是面向Web交互任务的自进化在线课程强化学习框架，通过Actor与环境交互采样轨迹、Critic评估质量、自进化任务模块优化失败任务、经验回放池存储高质量轨迹，结合KL约束完成策略更新。实验表明，WebRL在长时序高复杂度任务上显著优于基线方法，10步以上长周期任务优势尤为突出。

MobileRL针对移动GUI交互任务设计，分为推理预热与强化学习训练两个阶段。其核心创新包括失败课程过滤，通过在线统计任务难度下调无解任务权重，提升资源利用率。以及难度自适应正回放，维护高质量轨迹缓冲池，通过混合采样平衡探索与利用，提升训练稳定性。

3. 通用多轮多任务智能体的规模化训练框架：AgentRL

接下来，东教授提出了如图2所示的的AgentRL框架。AgentRL是端到端的多轮多任务智能体强化学习训练框架，从基础设施与算法层面解决规模化训练瓶颈。基础设施上采用全异步架构，实现轨迹采样与模型训练并行。通过容器化部署实现资源分配与故障隔离。设计集中式全局控制器支持数千个并行训练episode的调度。算法上提出任务优势归一化方法，对每个任务的token级优势值进行零均值单位方差处理，有效解决多任务学习失衡问题，提升训练稳定性与任务通过率。

图2 AgentRL框架

4. 智能体训练的核心决定要素

在演讲的最后，东教授提出了智能体训练的核心决定要素，即数据决定了交互环境质量与利用效率基础，算法核心决定数据与环境利用效率，支撑训练稳定与规模化，算力作为底层支撑，最终决定训练与推理的执行效率。

四、总结

报告系统阐述了大语言模型驱动交互智能体的范式演进、核心挑战与强化学习方案。报告指出智能体正从单轮单环境向多轮多异构环境跃迁，面临基础设施与算法层面的双重瓶颈。针对Web与移动GUI场景，提出了WebRL、MobileRL专项强化学习方案，并构建了通用规模化训练框架AgentRL。报告指出数据、算法、算力是决定智能体效果与效率的三大核心支柱。

查看全文

http://www.jsqmd.com/news/910301/