当前位置: 首页 > news >正文

交互式世界建模新方案!腾讯混元发布世界模型WorldPlay,兼顾实时生成与长期几何一致性;5万条样本!Med-Banana-50K支持增删病灶双向编辑

世界模型正驱动计算智能领域的重心逐渐从语言任务拓展至视觉与空间推理,通过构建动态三维环境的模拟能力,这些模型使智能体得以感知并与复杂场景交互,从而为具身智能、游戏开发等领域开启了新的研究与应用前景。世界模型的前沿正聚焦于实时交互式视频生成,尽管已取得显著进展,但如何同时达成实时生成的低延迟与长期几何的高一致性,仍然是该领域悬而未决的关键问题。

基于此,腾讯混元团队推出了世界模型 WorldPlay,能够实现实时、交互式的世界建模,并保持长期的几何一致性,从而有效解决了现有方法在生成速度与内存占用之间的固有权衡。该系统的实现包括三项关键技术创新:

*双重动作表示法:采用双重动作表示,实现对用户键盘与鼠标输入的稳健动作控制,确保交互响应的准确性与稳定性。

*重构上下文记忆机制:为保障长期一致性,该模型设计了一种动态重构上下文记忆模块,能够重建历史帧的上下文信息,并通过时间重构策略,保持几何关键但时间久远的帧仍可被访问,从而显著缓解记忆衰减问题。

*情境强迫(Context Forcing)蒸馏方法:研究团队提出了一种专为记忆感知模型设计的新型蒸馏方法,称之为「情境强迫」。该方法通过对齐教师模型与学生模型之间的记忆上下文,使学生模型在保持实时推理速度的同时,不丧失利用远程信息的能力,有效抑制误差偏移。

WorldPlay 能够以 24 FPS 的速率稳定生成长序列、720p 的高清流媒体视频,在多项指标上优于现有技术,并在多样化场景中展现出优秀的泛化能力。通过提供系统化的控制、记忆和提炼框架,WorldPlay 在创建实时且一致的世界模型领域迈出了关键一步。

目前,HyperAI超神经官网已上线了「HY-World 1.5: 交互式世界建模系统框架」,快来试试吧~

在线使用:https://go.hyper.ai/Dgd3Z

12 月 29 日-1 月 2 日,hyper.ai 官网更新速览:

  • 优质教程精选:3 个

  • 热门百科词条:5 条

  • 1 月截稿顶会:10 个

访问官网:hyper.ai

公共教程精选

1. HY-World 1.5: 交互式世界建模系统框架

HY-World 1.5(WorldPlay)是腾讯混元团队发布的首个具有长期几何一致性的开源实时交互世界模型。该模型通过流式视频扩散技术实现实时交互世界建模,解决了当前方法中速度与内存之间的权衡问题。

在线运行:https://go.hyper.ai/Dgd3Z



Demo 页面

2. Maya1:高真实感情感语音生成服务

Maya1 是由 Maya Research 发布的一款高保真情感文本转语音(TTS)模型,专为高质量的语音合成任务设计,具有丰富的情感表达和可控的语音风格。该模型专注于通过自然语言描述准确建模说话者的情绪状态、说话速度、语调、音色和表现力,能够生成高度逼真的语音输出,极其接近人类表达。

在线运行:https://go.hyper.ai/RmmI3

效果示例

3. RFdiffusion3:蛋白质设计模型

RFdiffusion3(RFD3)是华盛顿大学蛋白质设计研究所发布的一个模型。这一最先进的生物设计 AI 模型能够生成几乎与活细胞中任何分子相互作用的新型蛋白质,解决了长期以来令蛋白质工程师感到沮丧的研究难题。

效果示例

在线运行:https://go.hyper.ai/gv4Rz

热门百科词条精选

1. 每秒帧数 Frames Per Second (FPS)

2. 双向长短期记忆 Bi-LSTM

3. 门控注意力 Gated Attention

4. 具身导航 Embodied Navigation

5. 门控循环单元 Gated Recurrent Unit

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://go.hyper.ai/wiki

一站式追踪人工智能学术顶会:https://go.hyper.ai/event

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

http://www.jsqmd.com/news/206571/

相关文章:

  • 长城杯 WEB安全 AI WAF
  • 黄仁勋最新演讲:5项创新加持,Rubin性能数据首曝;多样化开源,覆盖Agent/机器人/自动驾驶/AI4S
  • 【计算机毕业设计案例】机器学习基于python深度学习的鲜花识别
  • CTF 学习笔记
  • 大数据领域Storm的监控与调优实践
  • 虚拟机安装麒麟操作系统如何重置root密码
  • 基于深度学习的杂草检测系统
  • ABAQUS二维混凝土细观模型的数字化重建技术(二)图像映射
  • 深度学习毕设项目:python基于cnn卷积网络识别树叶是否存在病变
  • ue4 我的ai要用到的一下方法汇总 + ue的ai编程助手
  • 【路径规划】改进的蚁群算法无人机栅格地图最短路径规划【含Matlab源码 14857期】
  • 不会剪辑、不写稿,能不能靠 AI 做电影解说?
  • 双曲余弦ch(x)双曲余弦函数(ch(x))是双曲函数的一种,定义为:‌ch(x) = (eˣ + e⁻ˣ) / 2‌它和三角函数中的余弦函数类似,但定义在双曲线上,常用于数学、物理和工程领
  • DAB加ai加蓝牙音箱有市场吗
  • js获取本地视频流并播放
  • 大数据领域数据交易的商业模式探讨
  • 深度测评专科生必用的8款AI论文软件
  • 为什么你的Bonding总是单线跑?一文讲透layer2/layer2+3/layer3+4
  • adb: unable to connect for root: more than one device/emulator
  • 计算机深度学习毕设实战-基于python深度学习的鲜花识别人工智能
  • wazuh-主动拉黑
  • 吐血推荐10个AI论文平台,MBA论文写作必备!
  • 后端开发提效10倍!别再手写CRUD接口了,试试这个API开发平台
  • Java面试全攻略:从Spring Boot到Kubernetes的实战问答
  • 基于SpringBoot的旅游分享点评网系统(毕业设计项目源码+文档)
  • 【论文阅读】Steering Your Diffusion Policy with Latent Space Reinforcement Learning
  • AI模型训练震荡?解决方案汇总
  • 深度学习毕设项目:机器学习基于python深度学习的鲜花识别
  • Java消息中间件-Kafka全解(2026精简版)
  • 学习率调整与优化技巧相关 TensorFlow安装依赖冲突解决方案汇总