LongLive 2.0:NVFP4 并行架构助力长视频生成,最高推理速度达 45.7 FPS!
内容概要
采用 NVFP4 技术并在训练和推理阶段均实现并行处理的架构。
新闻动态
2026 年 5 月 13 日,发布 LongLive 2.0,这是一个采用 NVFP4、具备并行处理能力且支持多镜头 AR 训练、DMD 蒸馏和推理(速度达 45.7 FPS)的架构。原始的 LongLive 1.0 代码现已移至 v1.0 分支。
2026 年 4 月 12 日,LongLive 支持使用 TriAttention 进行 kv 缓存压缩,可减少 50% 的 KV 占用且不降低质量。
2026 年 1 月 27 日,LongLive 被 ICLR - 2026 会议接收。
2026 年 1 月 11 日,LongLive 支持将原始的 RoPE 适配为 KV - cache 相对 RoPE,能够生成无限长的视频。
2025 年 11 月 3 日,在线性注意力模型 SANA - Video 上实现了 LongLive,现在 SANA - Video 可以实时生成 60 秒的交互式视频。
2025 年 9 月 29 日,发布了论文、包含所有训练和推理代码的 GitHub 仓库 LongLive、模型权重 LongLive - 1.3B 以及演示页面网站。
简介
LongLive 1.0:实时交互式长视频生成
可以在 V1.0 分支中找到相关内容。它能够接收用户的连续提示并实时生成相应的视频,支持用户引导的长视频生成。其关键特性包括注意力汇聚、KV 重缓存和流式长调优。
LongLive 2.0:用于长视频生成的 NVFP4 并行架构
训练方面:支持用于 AR 训练(教师强制)的平衡序列并行,可对多镜头(或单镜头)视频进行 AR 训练。在 AR 训练和少步蒸馏中均支持 NVFP4(或 BF16)。
推理方面:支持 NVFP4 推理(W4A4)和 NVFP4 KV 缓存、多镜头注意力汇聚、序列并行推理和异步解码。
快速上手
完整文档
安装、NVFP4 设置、训练、推理、数据组织
快速开始
BF16
给出了相应的代码示例,`place_vae_for_streaming` 函数仅在 `inference.streaming_vae` 为 `true` 且设置了 `inference.vae_device` 时才会起作用,只需在 YAML 文件中切换流式管道解码设置即可,脚本无需更改。
NVFP4
将 `configs/nvfp4/inference_nvfp4.yaml` 中的 `checkpoints.generator_ckpt` 指向下载的检查点,并根据使用的后端设置 `model_quant_use_transformer_engine`。`setup_nvfp4_pipeline` 函数负责处理检查点加载、NVFP4 模块包装、权重实例化、数据类型/设备放置以及两种后端的流式管道 VAE 重定位。这里不能使用 `bf16 pipe.to(...)` 快捷方式,因为它会转换量化缓冲区。也给出了相应的代码示例。
模型
列出了不同模型的 FPS、参数、VBench 等信息,如 LongLive - 1.3B、LongLive - 2.0 - 5B、LongLive - 2.0 - 5B - NVFP4 - 4Step、LongLive - 2.0 - 5B - NVFP4 - 2Step。
许可证
本仓库遵循 Apache 2.0 许可证。详情请见 `LICENSE` 文件。
引用
给出了引用的 bibtex 格式。
致谢
Self - Forcing:构建的 AR 训练代码库和公式基础。Wan2.2:本版本中使用的基础视频扩散模型组件。
