当前位置: 首页 > news >正文

SIMA 2:Gemini赋能的3D虚拟世界AI智能体

SIMA 2: 能在3D虚拟世界中与你一同游玩、推理和学习的智能体

去年,我们推出了SIMA(可扩展的、可指导的多世界智能体),这是一个通用AI,能够在广泛的虚拟环境中遵循基本指令。SIMA是教导AI在丰富的3D世界中将语言转化为有意义行动的关键第一步。

今天,我们推出SIMA 2,这是我们在创建通用且有用的AI智能体研究中的下一个里程碑。通过集成Gemini模型的高级能力,SIMA正从一个指令遵循者演变成一个交互式游戏伙伴。SIMA 2不仅能在虚拟世界中遵循人类语言的指令,现在还能思考自己的目标、与用户对话,并随着时间推移自我改进。

推理的力量

第一版SIMA学习在多种商业游戏中执行超过600项语言跟随技能,如“左转”、“爬梯子”和“打开地图”。它像人类一样在这些环境中操作,通过“看”屏幕并使用虚拟键盘和鼠标进行导航,无法访问底层游戏机制。

有了SIMA 2,我们超越了指令遵循。通过将Gemini模型嵌入作为智能体的核心,SIMA 2不仅能响应指令,还能思考并推理这些指令。

SIMA 2的新架构集成了Gemini强大的推理能力,帮助它理解用户的高层次目标,在追求目标过程中执行复杂推理,并在游戏中熟练地执行目标导向的行动。

我们使用带有语言标签的人类演示视频以及Gemini生成的标签混合训练了SIMA 2。其结果是,SIMA 2现在可以向用户描述它打算做什么,并详述为实现目标所采取的步骤。

在测试中,我们发现与智能体互动感觉不像是在下达命令,更像是与一个能推理当前任务的伙伴协作。

得益于我们与现有及新的游戏伙伴的合作,我们得以在更广泛的游戏上训练和评估SIMA 2。

这就是Gemini为具身AI带来的力量:一个世界级的推理引擎,现在能够感知、理解并在复杂的交互式3D环境中采取行动。

泛化性能的巨大飞跃

Gemini的加入也带来了泛化能力和可靠性的提升。SIMA 2现在能比其前身理解更复杂和微妙的指令,并且执行成功率更高,尤其是在它从未训练过的情景或游戏中,例如新的维京生存游戏ASKA,或MineDojo(流行开放世界沙盒游戏Minecraft的一个研究实现)。

SIMA 2可以理解并完成长而复杂的指令。
SIMA 2无需事先训练即可处理全新的游戏,展示了令人印象深刻的进步。
SIMA 2可以理解多模态提示。
SIMA 2可以理解不同的语言甚至表情符号。

此外,其迁移所学概念的能力——例如,将对一个游戏中“挖掘”的理解应用于另一个游戏中的“采集”——是实现人类认知中那种广泛泛化的基础。事实上,由于这种能力,SIMA 2在广泛任务上的表现显著更接近人类玩家。

SIMA 2可以跨多个游戏泛化动作,包括它未接受过训练的游戏(如MineDojo和ASKA)。
训练游戏环境中一系列评估任务上,SIMA 1、SIMA 2和人类的任务完成成功率对比,显示SIMA 2显著缩小了与人类表现的差距。请注意,此处报告的SIMA 1性能是相对于我们新的、扩展的、难度大得多的评估集,涵盖更广泛的环境和更复杂的指令。

在未见过的游戏(ASKA和MineDojo)上,SIMA 1和SIMA 2的任务完成成功率对比。

终极测试:在全新生成的世界中游戏

为了测试SIMA 2泛化能力的极限,我们将其与另一个开创性研究项目Genie 3相结合,后者可以根据单张图像或文本提示生成新的、实时的3D模拟世界。

当我们要求SIMA 2在这些新生成的世界中游戏时,我们发现它能够合理地定位自身、理解用户指令,并朝着目标采取有意义的行动,尽管以前从未见过此类环境。它展示了前所未有的适应性。

SIMA 2在Genie 3生成的新世界中游玩。

迈向可扩展、多任务自我改进

SIMA 2最激动人心的新能力之一是其自我改进的潜力。我们观察到,在整个训练过程中,SIMA 2智能体能够执行越来越复杂和新颖的任务,并通过试错和基于Gemini的反馈实现自举。

例如,在初步从人类演示中学习后,SIMA 2可以过渡到仅通过自我导向的游戏在新游戏中学习,在从未见过的世界中发展技能,而无需额外的人类生成数据。在后续训练中,SIMA 2自身的经验数据可用于训练下一个更强大的智能体版本。我们甚至能够利用SIMA 2在新创建的Genie环境中的自我改进能力——这是在多样化生成世界中训练通用智能体的一个重要里程碑。

SIMA 2的自我改进循环从Gemini提供初始任务和对SIMA 2行为的估计奖励开始。然后将此信息添加到自我生成的经验库中,智能体在后续世代的进一步训练中使用该库。此过程使智能体能够完全独立于人类生成的演示和干预,改进先前失败的任务。

这种迭代改进的良性循环为未来智能体能以最少的人为干预学习和成长铺平了道路,成为具身AI中的开放式学习者。

ASKA:左侧是初始SIMA 2智能体失败的任务示例,右侧显示SIMA 2在数代训练后实现了自我改进,完全没有借助任何人类反馈或游戏数据。
Genie 3环境:智能体在它从未见过的Genie 3环境中,经过一代训练后正在改进。

展望未来:迈向通用具身智能的旅程

SIMA 2在多样化游戏环境中运行的能力是通用智能的关键试验场,使智能体能够掌握技能、练习复杂推理,并通过自我导向的游戏持续学习。

虽然SIMA 2是迈向通用、交互式、具身智能的重要一步,但它从根本上说是一项研究工作,其当前局限性凸显了未来工作的关键领域。我们发现智能体在处理非常长跨度、复杂的任务时仍面临挑战,这些任务需要广泛的多步推理和目标验证。SIMA 2的交互记忆也相对较短——它必须使用有限的上下文窗口来实现低延迟交互。最后,通过键盘和鼠标接口执行精确的底层动作,以及对复杂3D场景实现稳健的视觉理解,仍然是整个领域持续面临的开放挑战。

这项研究为面向行动的AI开辟了一条新路径提供了根本性验证。SIMA 2证实,一个为广泛能力而训练的AI,利用多样化的多世界数据和Gemini强大的推理能力,可以成功地将许多专门系统的能力统一到一个连贯的通用智能体中。

SIMA 2也为在机器人领域的应用提供了一条强有力的路径。它学到的技能——从导航和工具使用到协作任务执行——是未来物理世界AI助手实现智能物理具身所需的一些基本构建块。

负责任的开发

SIMA 2是一个以人为中心的交互式智能体,与之互动非常有趣,尤其是它以娱乐性的方式解释自己的推理过程。与我们所有先进的基础技术一样,我们从一开始就坚定地致力于负责任地开发SIMA 2。这尤其体现在其技术创新,特别是自我改进的能力上。

在构建SIMA 2的过程中,我们与负责任开发与创新团队合作。在我们继续探索潜在应用的同时,我们将SIMA 2作为有限研究预览版发布,并向一小部分学者和游戏开发者提供早期访问。这种方法使我们能够在这一新领域探索时收集关键反馈和跨学科视角,并继续加深我们对风险及其适当缓解措施的理解。我们期待与社区进一步合作,以负责任的方式开发这项技术。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

http://www.jsqmd.com/news/535325/

相关文章:

  • AI Agent社交网络:为什么这是比AI工具更值得关注的方向?
  • Day45本地存储复杂数据类型
  • 通过学习分位数函数改进预测
  • V4L2 的 ioctl 调用流程
  • 经典蓝牙双机控制 APP-完整版1
  • 制造业生产管理闭环解决方案 - 智慧园区
  • QWEN-AUDIO快速部署:一键搭建语音合成平台,省心省力
  • Linux实用功能代码集(3) —— 线程间消息队列(1)
  • 北京回收宣纸|藏家急售无门路?丰宝斋上门回收,省心又靠谱 - 品牌排行榜单
  • Mermaid图表工具终极指南:三步学会专业图表零代码绘制
  • FPGA DSP48E2实战避坑:为什么你的32x32定点乘法性能上不去?从原理到优化全解析
  • 从N元文法到BERT:用Python代码串讲NLP核心模型演进(附实战代码)
  • 炫2张Nature主刊相关性热图
  • RadixAttention 技术详解:从原理到 SGLang 实践及 vLLM APC 对比
  • 2026年AI营销公司TOP5深度评估:从技术壁垒到实战效果的多维选型指南 - 小白条111
  • 惊艳效果展示:实时手机检测-通用镜像识别复杂场景手机案例
  • 接口频繁变化时,Flutter 项目如何保证稳定性?
  • NanoMsg vs ZeroMQ:轻量级通信库选型指南(性能对比+迁移成本分析)
  • 新手编程初体验:在快马用ai生成win11右键菜单还原win10的详细教程代码
  • 在职考公考编党必看!27公考备考APP性价比测评
  • 计算机毕业设计springboot社区物业管理系统 基于SpringBoot的智慧社区综合服务平台 基于SpringBoot的小区数字化运营管理系统
  • Windows Defender禁用技术深度解析:通过WSC API实现安全控制
  • ROS2 MoveIt配置实战:解决机械臂在RViz中‘只规划不执行’和模型不显示的常见问题
  • 嘉立创SMT加工避坑指南:如何用下单助手高效完成PCB焊接(附最新优惠信息)
  • LuaScript:Godot引擎Lua集成方案的轻量级脚本开发解决方案
  • DeepSeek-OCR镜像免配置方案:开箱即用的智能文档解析终端
  • Django Admin 后台让邮箱、科目必填 + 下拉选择
  • 如何让Flash内容重获新生?FlashPatch拯救过期浏览器插件的实战指南
  • 免费开源神器draw.io vs Processon:哪个更适合你的流程图需求?
  • 老旧设备焕新:OpenClaw在GTX1080上优化运行Qwen3-32B的技巧