当前位置: 首页 > news >正文

腾讯混元世界模型HY-World 1.5开源,24 FPS的实时交互世界建模

腾讯混元世界模型 HY-World 1.5 开源,实现了 24 FPS(每秒帧数)的实时交互式世界生成。

混元团队提出了 WorldPlay(世界交互)框架,将流式视频扩散模型与长效一致性技术深度融合。

核心突破在于通过双重动作表征实现了精准的操控响应,利用重构上下文记忆解决了长程生成中的空间坍塌,并配合上下文强迫蒸馏技术将推理延迟降低至实时水平。

生成式 AI 正从单纯的内容创作转向对物理世界的实时模拟。它不仅能根据用户的键盘和鼠标输入即时生成视觉反馈,还能在长距离移动后重新回到同一地点时,确保场景布局与最初生成的细节完全一致。

HY-World 1.5 以流式方式响应用户导航命令,并在重新访问时保持场景连贯性。

模型在不同的场景中显示出显著的泛化能力,包括:

真实世界生成,

风格化世界生成,

第三人称世界场景生成,

重建生成3D场景,

以及基于文本的事件触发生成。

双重表征与重构记忆锁定空间逻辑

世界模型的核心任务是模拟三维环境的动态演变,赋能智能体在复杂环境中感知与交互。

混元世界 1.0 虽然具备生成沉浸式世界的能力,但其离线生成流程漫长,无法支持实时交互。HY-World 1.5 通过分块自回归扩散模型打破了这一局限。

在动作控制层,研究团队发现单一的控制信号难以平衡鲁棒性与精确度。

离散的键盘输入(如 W、A、S、D 键)虽然对不同尺度的场景具有良好的适应性,但在需要精确位置缓存的记忆检索中表现出模糊性。

与之相对,连续的相机位姿(旋转和位移矩阵)能提供精确的空间坐标,但受限于训练数据中场景尺度的巨大差异,容易导致训练过程不稳定。

HY-World 1.5 采用 Dual Action Representation(双重动作表征)方案。针对离散动作,模型使用零初始化 MLP(多层感知机)将动作嵌入投影到时间步嵌入中,以此调制 DiT(扩散变换器)块。

针对连续相机位姿,模型引入 PRoPE(投影位置编码)技术,将位姿信息直接注入自注意力块。

这种双重表征确保了模型既能流畅响应用户的即时指令,又能在底层逻辑上维持严密的坐标体系,为后续的记忆检索提供了可靠的定位基准。

在长效一致性方面,单纯依靠注意力机制捕捉所有历史帧在计算上是不可行的。研究团队提出了 Reconstituted Context Memory(重构上下文记忆)。

系统会根据空间接近度和时间邻近度,从历史块中动态筛选出最具几何相关性的帧,重新构建当前生成的上下文环境。

为了解决 Transformer(变换器)架构中远距离 Token(令牌)影响力衰减的问题,团队设计了 Temporal Reframing(时间重组)机制。

该机制会丢弃历史帧的绝对时间索引,为所有选中的上下文帧分配固定的、较短的相对时间距离。这一操作在逻辑上将久远的记忆拉近,强制模型维持对历史场景的关注。

强化学习与上下文强迫加速实时进化

预训练后的模型虽然具备基础的场景生成能力,但在面对复杂组合动作时,往往会出现动作跟随不精准或视觉伪影。

WorldCompass(世界指南针)强化学习框架为此提供了针对性优化。该框架使用奖励函数来引导模型的探索行为。

其中 Clip-Level Rollout(剪辑级展开)策略通过强制模型依赖自身不完美的预测进行生成,有效缓解了推理过程中的曝光偏差。

同时,模型引入了动作跟随评分和视觉质量评分作为互补的反馈信号。这不仅提升了生成画面的精细度,还防止了强化学习中常见的奖励作弊现象。

为了将推理速度提升至 24 FPS 的实时水准,蒸馏技术是关键。然而,传统的扩散模型蒸馏方法在处理具有记忆机制的模型时,会遇到严重的分布失配问题。

自回归的学生模型在推理时只能访问过去的上下文,而双向的教师模型在训练时通常能接触到完整的全局信息。这种信息不对称会导致蒸馏过程中的误差迅速累积。

Context Forcing(上下文强迫)技术通过在蒸馏过程中对齐教师与学生的记忆上下文解决了这一难题。

在训练阶段,学生模型执行 4 个块的自展开,而教师模型通过掩码操作,强制其使用的记忆环境与学生模型完全一致。

这种同步确保了教师模型传导的知识能精准适配学生模型的因果推理模式。通过该方法,学生模型仅需 4 步去噪即可生成高质量画面。

数据驱动的物理世界底层逻辑构建

HY-World 1.5 的强大表现建立在 320,000 个高质量视频剪辑的支撑之上。数据集的构成经过了严密的战略设计。

其中 53.125% 的数据来自 170,000 个 3A 级游戏录像,涵盖第一人称和第三人称视角。这些录像提供了丰富的交互逻辑、复杂的物理碰撞和多样化的环境互动。

18.75% 的数据源自 DL3DV 数据集,包含 60,000 个真实世界 3D 场景。团队对这些视频进行了 3D 重建,并设计了模拟交互导航的相机轨迹,强化了模型对真实物理空间的建模能力。

15.625% 的数据为使用 Unreal Engine(虚幻引擎)渲染的合成数据,提供了精确的几何标注(Ground Truth)。

剩下的 12.5% 则是聚焦于自然动态和交互的真实世界视频。

所有原始数据都经过了多阶段过滤。系统首先利用自动化工具评估视觉质量,剔除带水印、UI 界面或存在严重压缩损耗的片段。

运动一致性分析环节则利用光流技术监测视频中的相机抖动情况,过滤掉轨迹突变或物理上不可行的运动片段。

在标注阶段,团队利用混元视频字幕模型生成结构化文本。相机位姿通过 VIPE 技术估计或从引擎直接导出。

离散动作信号通过对相机轨迹的分类处理获得,将复杂的运动解构为基础的移动指令和视角转动指令。

在工程实现层面,为了充分发挥多 GPU 算力,团队采用了混合并行方案。

该方案在 8 个 GPU 上同时实施序列并行和注意力并行。与传统的仅在时间轴上分发的并行方式不同,这种方法将每个块的所有 Token(令牌)分布在不同设备上。

这种设计确保了计算负载的极致均衡,显著缩短了单个分块的推理耗时。

同时,流式部署架构利用 NVIDIA Triton(英伟达推理框架)实现了异步处理。VAE(变分自编码器)解码采用了多步渐进式策略,无需等待整个块生成完毕即可开始输出帧。

这意味着用户在模型还在处理后续画面时,就能即时看到已经生成的视觉反馈,极大地降低了感知延迟。

为了进一步优化内存占用,模型应用了 Sage Attention 优化方案,并对线性层和权重实施了针对性的浮点量化。

KV Cache(键值缓存)机制在自回归生成过程中消除了冗余的重复计算,确保了在高分辨率输出下的流畅性。

跨领域应用与卓越的性能评估

HY-World 1.5 展现了卓越的场景泛化能力。它不仅支持传统的相机移动控制,还支持 Text-Based Event Triggering(基于文本的事件触发)。

用户可以在视频生成的过程中,输入自然语言指令来改变场景状态。例如改变天气、光照,或者在环境中生成新的物体和角色动作。

这种动态干预能力为交互式叙事和虚拟环境的实时创作提供了可能。

在定量对比实验中,WorldPlay 展示了压倒性的优势。

研究团队使用了 600 个涵盖真实视频、游戏录像和 AI 生成图像的测试案例进行评估。

在短程评估(61 帧)中,模型在 PSNR(峰值信噪比)、SSIM(结构相似性)和 LPIPS(感知相似度)等指标上均优于 CameraCtrl、ViewCrafter 等基准模型。

在长程评估(超过 250 帧)中,领先优势进一步扩大。

由于具备重构记忆机制,WorldPlay 在闭环轨迹测试中表现出色。当相机沿路径移动并返回初始点时,模型能精准复现最初的场景细节。

相比之下,Matrix-Game 2.0 和 GameCraft 等模型在长序列生成中会出现严重的几何漂移和空间坍塌,无法维持场景的连贯性。

除了直接生成,HY-World 1.5 还是 3D 重建系统的理想上游方案。

由于生成的视频具有极高的几何连贯性,它们可以作为 WorldMirror 等重建流水线的输入,生成纹理清晰、结构一致的 3D 点云和场景表示。

这种跨模态的一致性证明了模型对物理世界底层规律的深刻掌握。

VBench 基准和人类评估表现突出。

通过系统性地整合双重动作表征、重构上下文记忆、强化学习引导和上下文强迫蒸馏,HY-World 1.5 成功构建了一个高性能的交互式世界建模框架。

它不仅在技术层面解决了延迟与一致性的矛盾,更为未来具身智能的场景模拟和大型开放世界的动态生成奠定了基础。

参考资料:

https://3d-models.hunyuan.tencent.com/world/

https://huggingface.co/tencent/HY-WorldPlay

https://github.com/Tencent-Hunyuan/HY-WorldPlay

http://www.jsqmd.com/news/124611/

相关文章:

  • Baozii Winter Training Camp Round 1
  • SIMD指令集能力对比:arm64 NEON vs amd64 SSE操作指南
  • ParsecVDisplay终极教程:三步配置虚拟显示器实现高效远程工作
  • 彻底解决显卡驱动问题:Display Driver Uninstaller深度清理指南
  • Windows驱动管理终极指南:Driver Store Explorer完整教程
  • DriverStore Explorer终极指南:彻底清理Windows驱动仓库
  • 罗技鼠标压枪宏完整配置指南:从零到精通的射击优化方案
  • Windows驱动管理终极指南:快速清理冗余驱动,让系统告别卡顿
  • Windows驱动存储管理新方案:DriverStore Explorer深度体验
  • 工业电机控制项目所需的Keil5软件安装详解
  • GetQzonehistory终极指南:3分钟轻松备份QQ空间所有历史说说
  • Parsec VDD虚拟显示器:突破物理限制的显示革命
  • Joy-Con Toolkit终极指南:免费开源手柄管理工具的完整使用教程
  • 彻底告别显卡驱动问题:DDU卸载工具完整使用指南
  • 激光终端产品自动测试系统
  • Zotero文献去重完全指南:智能合并插件使用详解
  • ParsecVDisplay完整指南:免费实现4K 240Hz虚拟显示器终极方案
  • DDU显卡驱动彻底清理指南:解决驱动残留问题
  • 赛米控炒菜机器人斩获金奖,科技赋能青少年健康饮食新未来
  • 终极Windows驱动清理工具DriverStoreExplorer:简单三步释放C盘空间
  • Multisim示波器相位差测量方法:清晰图解教程
  • DriverStore Explorer:Windows驱动存储区的终极清理解决方案
  • 工业自动化中CCS的集成:深度剖析案例
  • springboot基于html的书城阅读器系统的设计与实现
  • 终极QQ空间备份神器:一键导出所有历史说说的完整指南
  • GetQzonehistory终极指南:5分钟学会备份QQ空间全部历史记录
  • RimSort模组管理器完全使用指南
  • 使用ESP32 IDF实现智能插座的项目应用
  • GetQzonehistory完整指南:如何快速备份QQ空间所有历史说说
  • 终极显卡驱动清理指南:彻底解决驱动残留问题