当前位置：首页 > news >正文

LongLive 2.0：NVFP4 并行架构助力长视频生成，最高推理速度达 45.7 FPS！

news 2026/7/15 11:47:48

内容概要

采用 NVFP4 技术并在训练和推理阶段均实现并行处理的架构。

新闻动态

2026 年 5 月 13 日，发布 LongLive 2.0，这是一个采用 NVFP4、具备并行处理能力且支持多镜头 AR 训练、DMD 蒸馏和推理（速度达 45.7 FPS）的架构。原始的 LongLive 1.0 代码现已移至 v1.0 分支。

2026 年 4 月 12 日，LongLive 支持使用 TriAttention 进行 kv 缓存压缩，可减少 50% 的 KV 占用且不降低质量。

2026 年 1 月 27 日，LongLive 被 ICLR - 2026 会议接收。

2026 年 1 月 11 日，LongLive 支持将原始的 RoPE 适配为 KV - cache 相对 RoPE，能够生成无限长的视频。

2025 年 11 月 3 日，在线性注意力模型 SANA - Video 上实现了 LongLive，现在 SANA - Video 可以实时生成 60 秒的交互式视频。

2025 年 9 月 29 日，发布了论文、包含所有训练和推理代码的 GitHub 仓库 LongLive、模型权重 LongLive - 1.3B 以及演示页面网站。

简介

LongLive 1.0：实时交互式长视频生成

可以在 V1.0 分支中找到相关内容。它能够接收用户的连续提示并实时生成相应的视频，支持用户引导的长视频生成。其关键特性包括注意力汇聚、KV 重缓存和流式长调优。

LongLive 2.0：用于长视频生成的 NVFP4 并行架构

训练方面：支持用于 AR 训练（教师强制）的平衡序列并行，可对多镜头（或单镜头）视频进行 AR 训练。在 AR 训练和少步蒸馏中均支持 NVFP4（或 BF16）。

推理方面：支持 NVFP4 推理（W4A4）和 NVFP4 KV 缓存、多镜头注意力汇聚、序列并行推理和异步解码。

快速上手

完整文档

安装、NVFP4 设置、训练、推理、数据组织

快速开始

BF16

给出了相应的代码示例，`place_vae_for_streaming` 函数仅在 `inference.streaming_vae` 为 `true` 且设置了 `inference.vae_device` 时才会起作用，只需在 YAML 文件中切换流式管道解码设置即可，脚本无需更改。

NVFP4

将 `configs/nvfp4/inference_nvfp4.yaml` 中的 `checkpoints.generator_ckpt` 指向下载的检查点，并根据使用的后端设置 `model_quant_use_transformer_engine`。`setup_nvfp4_pipeline` 函数负责处理检查点加载、NVFP4 模块包装、权重实例化、数据类型/设备放置以及两种后端的流式管道 VAE 重定位。这里不能使用 `bf16 pipe.to(...)` 快捷方式，因为它会转换量化缓冲区。也给出了相应的代码示例。