当前位置: 首页 > news >正文

突破传统 AI 训练!USTC 提出 Role-Agent 双角色共演机制

Role-Agent: Bootstrapping LLM Agents via Dual-Role Evolution

Authors: Xucong Wang, Ziyu Ma, Shidong Yang, Tongwen Huang, Pengkun Wang, Yong Wang, Xiangxiang Chu (USTC & AMAP, Alibaba) |Year: 2026 |arXiv: 2606.10917

二、研究背景

LLM Agent 的学习受限于两个问题:(1)低效的交互反馈——传统强化学习通常只有稀疏的最终奖励;(2)静态训练环境——训练数据固定,无法针对失败模式进行针对性练习。

Role-Agent 的核心洞察:LLM 本身具有足够的世界知识,可以模拟环境动态;同时具备分析自身失败的能力,可以主动选择"练习题"。

四、实验结果

在编程、导航、知识问答等多个 Agent 基准上评测:

  • 相比强基线平均提升>4%
  • WIA 的过程奖励在长时序任务中效果尤为显著
  • AIW 的失败模式检索有效将练习集中于已知弱点

报告生成时间:2026-06-11 | 论文来源:arXiv:2606.10917

原文摘要:Although Large Language Model (LLM) agents have demonstrated strong performance on complex tasks, their learning is often limited by inefficient interaction feedback and static training environments, which hinder broader generalization. To address these limitations, this paper introduces Role-Agent, \textcolor{black}{a framework} that harnesses a single LLM to function concurrently as both the agent and the environment, enabling a bootstrapped co-evolution. Role-Agent comprises two synergistic components: World-In-Agent (WIA) and Agent-In-World (AIW). In WIA, the LLM acts as the agent and predicts future states after each action; the alignment between predicted and actual states is then used as a process reward, encouraging environment-aware reasoning. In AIW, the LLM analyzes failure modes from failed trajectories and retrieves tasks with similar failure patterns, thereby reshaping the training data distribution for targeted practice. Experiments on multiple benchmarks show that Role-Agent consistently improves performance, yielding an average gain of over 4% over strong baselines.

PDF链接:https://arxiv.org/pdf/2606.10917v1

部分平台可能图片显示异常,请以我的博客内容为准

http://www.jsqmd.com/news/995840/

相关文章:

  • 告别PWM配置玄学:深入S32K14x的FTM模块,搞懂重装载(Reload)机制与中断回调
  • RuoYi-Vue Pro工作流审批系统架构设计与技术实现深度解析
  • 深入机箱与线缆:单点、多点接地在EMC整改中的‘隐身’实战(以某工控设备为例)
  • GnuRadio实战:手把手教你用Python和C++混合编程实现OQPSK解调(附源码解析)
  • 从星巴克排队到云服务器扩容:聊聊M/M/1模型里那个关键的ρ(rho)到底是什么意思?
  • FanControl V269终极指南:Windows平台风扇控制的专业级解决方案
  • 2026年脱硫泵供应商选择指南:行业格局、技术趋势与关键厂商分析 - 优质品牌商家
  • 2026年成都喷砂机生产厂家实力测评:这些企业值得关注! - 优质品牌商家
  • Pearcleaner:让你的Mac告别“数字幽灵“,重获纯净空间
  • 别再只盯着MQTT了!聊聊物联网里那个更省电的CoAP协议,附Wireshark抓包实战
  • 从一行代码看Python设计哲学:lambda匿名函数的前世今生与最佳实践
  • Codex 关闭手动确认 - Higurashi
  • 从双寡头到多智能体:用反应函数法分析AI智能体在模拟环境中的竞争策略
  • Redis 从入门到精通:事务与 Lua 脚本
  • 2026年成都外墙渗水维修市场深度分析:谁在提供真正可靠的服务? - 优质品牌商家
  • 【Springboot毕设全套源码+文档】springboot基于区块链的电子病历数据共享平台设计与实现(丰富项目+远程调试+讲解+定制)
  • 40+格式一网打尽:open3mod让你的3D模型查看体验起飞 [特殊字符]
  • Cortex-M33开发踩坑记:从HardFault反查BusFault与UsageFault的完整调试流程
  • 详细讲述软件实验室CMA资质认定中最复杂的一部分——记录
  • 本地部署 AI 资产管理系统 New API 并实现外部访问
  • 港科大EMBA全球排名多少?2026权威榜单完整解析
  • 计算机毕业设计之基于人脸识别的小区门禁管理系统
  • 高通座舱芯片的‘深度睡眠’:手把手教你验证STR/S2R模式(以Q+A平台为例)
  • 2026年中广州刑事诉讼律师市场趋势与精英服务商深度解析 - 品牌鉴赏官2026
  • GEO监测工具怎么选?B2B企业要看真实网页模拟能力
  • 2026年硫酸锌原料采购指南:一水硫酸锌供应商可靠性深度分析(附黄原胶配套服务) - 优质品牌商家
  • 从Laravel源码看PHP ?? 和 ?: 的高阶用法与最佳实践
  • 别再死记快捷键了!用Adobe Animate 2022做文字变形动画,形状提示点这样用才高效
  • ARM CoreSight调试实战:用Lauterbach工具解析ETM/PTM跟踪数据(附配置流程)
  • 语言AI技术课程:从词向量到Transformer架构解析