当前位置：首页 > news >正文

Jenga框架：高效视频生成的技术突破与应用

news 2026/7/14 7:24:40

1. Jenga框架解析：高效视频生成的技术革新

视频生成技术正经历着从实验室研究到工业应用的快速转变。传统方法受限于计算资源和算法效率，难以实现高分辨率视频的实时生成。Jenga框架的提出，标志着这一领域取得了关键性突破。

1.1 核心架构设计理念

Jenga采用双管齐下的优化策略：渐进式分辨率（ProRes）和动态块稀疏注意力（AttenCarve）。这种设计源于对视频生成过程中计算资源分配的深刻洞察——不同生成阶段对分辨率和注意力的需求存在显著差异。

在早期去噪阶段，模型主要学习视频的全局结构和运动轨迹，此时高分辨率反而会引入噪声干扰。Jenga的ProRes模块采用三阶段渐进策略：

第一阶段（32×45×80）：捕捉主体运动和基本构图
第二阶段（提升至48×68×120）：细化局部动作
第三阶段（最终720P）：完善纹理细节

这种策略使得计算量呈阶梯式增长，而非传统方法的固定高开销。实测数据显示，360P到720P的token数量增长4倍，但推理时间却增加10倍（从68s到708s），充分证明早期低分辨率阶段的必要性。

1.2 动态块稀疏注意力机制

AttenCarve模块的创新体现在三个维度：

空间划分：采用广义希尔伯特曲线（SFC）将3D视频潜在空间映射为1D序列，保持空间局部性。相比静态分块，SFC仅需0.19%的填充token和额外计算（表7）
动态选择：基于注意力得分的cut-off概率阈值（p=0.3）自动确定关键块，每层仅保留20-30%的视觉块参与计算
文本增强：对文本相关块应用放大因子ρ（默认0.5），强化语义控制

这种设计使得在720P生成时，注意力计算速度比FlashAttention2提升3.7倍（图15c），而块选择开销仅占2.8%的总时间（图15d）。

2. 关键技术实现细节

2.1 空间填充曲线的工程实现

Jenga采用改进的Gilbert曲线实现跨分辨率适配。关键实现步骤包括：

将视频潜在空间thw维度展平为1D序列
应用维度无关的SFC算法进行块划分（图9）
构建邻接矩阵Badja记录空间相邻关系
在注意力计算时合并相邻块（约20个）

# 伪代码示例：SFC块划分 def generate_sfc_blocks(thw, block_size): curve = GeneralizedHilbertCurve(thw) blocks = [] for i in range(0, curve.length, block_size): block = curve.get_tokens(i, i+block_size) blocks.append(block) return blocks

这种实现相比传统3D分块具有显著优势：无需填充至2^n尺寸，支持任意可被m整除的thw组合。在720P视频（129帧）测试中，SFC仅需112个填充token，而STA方法需要19,440个（表7）。

2.2 渐进式分辨率的阶段过渡

分辨率切换时的潜在空间对齐是技术难点。Jenga采用"重噪声-上采样"策略：

预测当前阶段的干净潜在表示ˆxs₀
计算上采样因子σt（0.9-0.95）

混合上采样结果与新增噪声：

x_{t-1} = (1-σ_t)×U(ˆxs₀) + σ_t˜ϵ

调整rectified flow调度器的timestep shift（α+=2）

这种处理虽然会引入约1-2%的边缘错位（图12），但避免了VAE重复编解码带来的50秒额外延迟。实测显示，在动态场景中这种artifacts几乎不可察觉。

3. 多场景适配与性能优化

3.1 不同模型的参数配置

Jenga支持灵活的参数预设（表4）：

HunyuanVideo适配：k=[0.3,0.2], ρ=0.5
Wan2.1优化：p=0.9可提升质量且不增加耗时
I2V特殊处理：禁用文本放大器（ρ=0），添加首帧条件掩码

在HunyuanVideo上，Jenga-Turbo（2阶段）实现7.22倍加速（225s vs 1625s），VBench评分保持83.07%。而Wan2.1结合Jenga后，生成时间从115s降至17s（6.52倍），质量损失仅0.76%。

3.2 多GPU并行策略

基于xDiT框架的改进包括（图10）：

Token维度并行：按SFC索引均匀分配块
注意力头并行：各GPU处理h/G头
工程优化：
- 用torch.bmm替代einsum
- 8GPU时处理时间从77s→34s
- 内存开销仅增加3.7%（71.84→74.49GiB）

这种设计突破了原有模型对GPU数整除latent尺寸的限制，支持更灵活的硬件配置。

4. 实战经验与问题排查

4.1 典型问题解决方案

边缘错位（图12）：
- 方案1：改用复杂场景提示（SUV案例）
- 方案2：减少ProRes阶段数（3→2阶段）
- 方案3：调整σt至0.85-0.9范围
运动幅度不足：
- 增大cut-off概率p（0.3→0.4）
- 启用文本放大器（ρ=0.5→0.7）
- VBench动态度指标从45.83%提升至70.83%
多GPU负载不均：
- 检查SFC块划分均匀性
- 调整BLOCK_N大小（推荐128-256）
- 启用torch.backends.cudnn.benchmark