当前位置: 首页 > news >正文

千问开源首个原生语言世界模型 Qwen-AgentWorld,性能超越 GPT-5.4 等前沿模型

【导语:千问正式开源发布首个原生语言世界模型 Qwen-AgentWorld,能在七大领域模拟智能体交互环境,还同步发布评测基准,其在评测中表现优异,超越多个前沿模型。】


Qwen-AgentWorld:七大领域全覆盖的语言世界模型

千问宣布正式开源发布 Qwen-AgentWorld,这是首个原生语言世界模型(LWM)。它能够在七大领域中模拟智能体交互环境,包括文本类环境(MCP、Search、Terminal、SWE)与 GUI 类环境(Web、OS、Android),实现跨领域知识迁移。该模型基于超过 1000 万条真实环境交互轨迹,经由 CPT -> SFT -> RL 三阶段训练而成。

世界建模在智能体训练中的双重作用

Qwen-AgentWorld 探讨了世界建模在智能体训练中的作用,并通过两种互补范式加以验证。作为解耦的环境模拟器,它为智能体强化学习提供了更优的可扩展性与可控性,可控的模拟 RL 能够以真实环境无法实现的方式塑造智能体行为,且显著优于仅在真实环境中训练的 RL。

作为统一的智能体基础模型,LWM 预热训练可有效迁移至涵盖七个基准(其中三个完全未出现在训练集中)的多轮智能体任务,且无需在智能体任务上进行任何 RL 微调,初步验证了语言世界模型能够作为构建更强智能体模型的基础。

AgentWorldBench 评测:Qwen-AgentWorld 超越竞品

同步发布的 AgentWorldBench 是一个覆盖七大领域的语言世界模型评测基准,每条测试样本均配备真实环境执行所得的真实环境观测数据。Qwen-AgentWorld-397B-A17B 在 AgentWorldBench 上取得最高的整体均分(58.71),超越 GPT-5.4(58.25)及所有其他前沿模型,在 Terminal 和 SWE 两个领域优势最为显著。

在 35B-A3B 规模上,三阶段训练流水线将整体均分提升了 +8.6647.73->56.39),使 Qwen-AgentWorld-35B-A3B 超过 Claude Sonnet 4.6(56.04),且在文本类和 GUI 类领域上均保持一致。

编辑观点:Qwen-AgentWorld 的开源发布为智能体领域带来新突破,其多领域覆盖与出色性能有望推动智能体技术发展,也为行业竞争增添新动力。

http://www.jsqmd.com/news/1076097/

相关文章:

  • 3分钟掌握IDM激活脚本:永久解锁下载加速神器
  • Gemma 4 E2B/E4B端侧AI部署实战:离线、确定性与隐私可控的硬核指南
  • Ryujinx深度解析:C构建的Nintendo Switch模拟器实战指南
  • DonkeyCar控制器硬件接入全指南:RC接收器接线与PPM校准实战
  • 如何彻底解决加密音乐格式兼容问题:Unlock Music音乐解锁工具完整指南
  • AI Agent可观测性实战:决策日志、执行状态与认知资源监控
  • 预算有限只能用 SQL Server 标准版?3 套高可用方案,2 台机器就能落地
  • Ryzen AI 代码生成实测,斐波那契函数带注释输出
  • 25元打造你的AI智能眼镜:OpenGlass开源项目完整指南
  • AI做歌中文效果哪个最自然?实测主流工具能力差异
  • TongLinKQ8三端传输配置方式(by yz)
  • Anthropic架构归零:告别中间件,直连原生协议
  • 32M bit SPI MRAM存储器低功耗设计
  • 干部管理系统选型避坑清单:6 个必问问题,快速甄别靠谱厂商
  • VibeCoding v1.1.50 发布:单文件 code agent 工具,新增多模型 Provider 并修复多项 Bug
  • 从人工抽查到AI全量洞察:呼叫中心智能质检的进化之路与落地场景
  • RAG 是什么?16 种 RAG 方案一次讲清!AI 应用开发必学 | 万字干货
  • 国测结果密集释放,国产数据库流行度排行洗牌,谁能脱颖而出?
  • 双调和插值细分:从C4连续曲线到非欧几何的稳定光滑方案
  • 完全开源的语言模型学习记录--推理加速Domino
  • 使用 Java 提取 HTML 文件中的纯文本内容
  • AI新闻发布在外贸品牌传播中的价值与应用路径
  • If you want faster progress, train like the pros, not just mess around.想要进步更快,就要像职业选手那样系统训练,而非随便敷衍
  • 3步掌握Path of Building PoE2:告别流放之路2构建迷茫
  • 6月5日全球AI资产暴跌,泡沫破灭了吗?如何破解AI发展结构难题?
  • 富文本编辑:基于TextInput的富文本编辑器开发(80)
  • MuleSoft+LangChain企业级AI编排实战:打通数据与大模型的数字脐带
  • 终极Windows风扇控制指南:5个技巧彻底解决电脑噪音与散热难题
  • Iris 护眼软件使用体验:久看屏幕更舒服
  • TinyML实战:在MCU上实现$0.0001成本的AI推理