当前位置: 首页 > news >正文

状态空间模型解锁视频世界模型长期记忆

视频世界模型能够根据给定的动作预测未来的帧序列,为人工智能代理在动态环境中进行规划和推理带来了巨大潜力。特别是视频扩散模型的最新进展,已经在生成逼真的未来序列方面显示出令人印象深刻的能力。然而,一个显著的瓶颈仍然存在:维持长期记忆。由于使用传统注意力层处理长序列的计算成本高昂,当前模型难以记住很久以前发生的事件和状态。这限制了它们执行需要持续理解场景的复杂任务的能力。

一篇来自斯坦福大学、普林斯顿大学以及某研究中心研究人员的新论文《长上下文状态空间视频世界模型》为这一挑战提出了创新的解决方案。他们引入了一种新颖的架构,该架构利用状态空间模型来扩展时间记忆,同时不牺牲计算效率。

核心问题在于注意力机制相对于序列长度的二次计算复杂度。随着视频上下文增长,注意力层所需的资源呈爆炸式增长,使得长期记忆对于实际应用变得不切实际。这意味着在超过一定数量的帧之后,模型实际上会“忘记”较早的事件,从而阻碍了其在需要长距离连贯性或长时间推理的任务上的表现。

作者的关键洞见在于利用状态空间模型在因果序列建模方面的固有优势。与之前尝试将SSM改造用于非因果视觉任务不同,这项工作充分利用了它们在高效处理序列方面的优势。

提出的长上下文状态空间视频世界模型包含几个关键的设计选择:

分块式SSM扫描方案:这是其设计的核心。他们不是用单一的SSM扫描处理整个视频序列,而是采用了分块方案。这一设计策略性地牺牲了部分空间一致性(在块内),以换取显著扩展的时间记忆。通过将长序列分解为可管理的块,模型可以维持一个压缩的“状态”,该状态携带跨块的信息,从而有效扩展模型的记忆范围。

密集局部注意力:为了弥补分块式SSM扫描可能带来的空间连贯性损失,模型融合了密集局部注意力。这确保了块内及跨块的连续帧之间保持强关联,保留了逼真视频生成所需的细粒度细节和一致性。这种全局(SSM)与局部(注意力)处理的双重方法使他们能够同时实现长期记忆和局部保真度。

论文还引入了两个关键的训练策略,以进一步提升长上下文性能:

扩散强制:这种技术鼓励模型基于输入的前缀来生成帧,有效地强制其学习在更长的时间跨度内保持一致性。有时不采样前缀并保持所有令牌带有噪声时,训练就等同于扩散强制,这被强调为长上下文训练的一种特殊情况(前缀长度为零)。这促使模型即使从最小的初始上下文也能生成连贯的序列。

帧局部注意力:为了更快的训练和采样,作者实现了“帧局部注意力”机制。这利用了FlexAttention,与完全因果掩码相比,实现了显著的加速。通过将帧分组为块(例如,每块5帧,帧窗口大小为10),块内的帧保持双向性,同时也能关注前一个块中的帧。这允许有效的感受野,同时优化计算负载。

研究人员在具有挑战性的数据集上评估了他们的模型,包括专门设计用于通过空间检索和推理任务来测试长期记忆能力的Memory Maze和Minecraft。

实验表明,他们的方法在保持长距离记忆方面显著超越了基线。补充图中的定性结果显示,与仅依赖因果注意力甚至是没有帧局部注意力的Mamba2模型相比,该模型能够在更长的时期内生成更连贯和准确的序列。例如,在迷宫数据集的推理任务上,该模型在长视野中保持了更好的一致性和准确性。同样,在检索任务中,该模型显示出从遥远过去帧中回忆和利用信息的能力有所提高。关键的是,这些改进是在保持实用推理速度的同时实现的,使得这些模型适用于交互式应用。

论文《长上下文状态空间视频世界模型》已在arXiv上发布。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.jsqmd.com/news/188297/

相关文章:

  • EducationExam考试试卷数字化:客观题主观题分别处理
  • CustomsDeclaration报关单据处理:跨境贸易效率提升工具
  • SmartCity智慧城市中枢:多源OCR数据汇聚形成城市知识图谱
  • RestaurantMenu菜单翻译:HunyuanOCR支持跨国餐饮连锁
  • 对比Tesseract与PaddleOCR:为何HunyuanOCR成为新一代OCR首选?
  • CF2163D2-Diadrash (Hard Version)
  • 基于SVG的双馈风机并网模型实验与仿真
  • 私有化部署价值凸显:HunyuanOCR满足企业数据不出域需求
  • 导师严选2025 AI论文平台TOP9:专科生毕业论文必备测评
  • Matlab代码:微电网的优化调度,利用Yalmip/Cplex求解器求解,程序注释详细,带说明文档
  • 词典约束是否存在?测试HunyuanOCR对专业术语的识别能力
  • 现在每天下午六点,我准时关了 IDEA,开车穿过 4 公里的晚高峰,20 分钟就到小区。一、去年那个手忙脚乱的夏天,我差点错过儿子的成长去年 5 月 23 号,老婆生了,是个儿子,我在产房陪产,当1
  • 如何定制HunyuanOCR的识别字段?自定义模板配置方法介绍
  • BioMedical文献扫描:HunyuanOCR处理专业术语的表现
  • 现在1每天下午六点,我准时关了 IDEA,开车穿过 4 公里的晚高峰,20 分钟就到小区。一、去年那个手忙脚乱的夏天,我差点错过儿子的成长去年 5 月 23 号,老婆生了,是个儿子,我在产房陪产1
  • VRTraining虚拟培训:操作手册文字嵌入三维场景
  • ACPI!ACPIBuildDeviceRequest函数分析和ACPI!ACPIBuildDeviceDpc函数的关系
  • 沃尔玛购物卡回收平台哪家强?实测后推荐这三家 - 京顺回收
  • Bootstrap的CSS样式使用介绍
  • 使用Jupyter Notebook运行1-界面推理-pt.sh脚本启动HunyuanOCR服务
  • HunyuanOCR与EasyOCR性能对比:速度、精度、资源占用三维评估
  • 脉脉AI创作者活动:聊聊AI时代技术人的真实出路
  • 数据增强策略复现:HunyuanOCR训练集构造方法猜想
  • NewsArticle新闻网页抓取:从截图还原正文内容的流程
  • EnvironmentalMonitoring环境监测:公示牌数据定期抓取
  • HunyuanOCR网页推理操作手册:从Jupyter启动到7860端口访问全流程
  • CF1746F - Kazaee
  • 基于web的电影院购票系统毕业论文+PPT(附源代码+演示视频)
  • FUNSD表单理解测试:HunyuanOCR对非结构化输入的解析力
  • 2025年行业内技术好的包装袋实力厂家推荐排行榜单,三边封包装袋/八边封包装袋/四边封包装袋制造厂家推荐 - 品牌推荐师