当前位置：首页 > news >正文

扩散模型中多主体生成的注意力优化技术FOCUS

news 2026/5/1 5:46:14

1. 项目背景与核心问题

在文本到图像生成领域，扩散模型已成为当前最主流的技术路线。然而，当生成包含多个独立主体的复杂场景时（如"一只红狐狸和一只北极狐并肩坐在高草丛中"），现有模型经常出现主体属性相互泄漏的问题——例如北极狐的白色毛发可能错误地出现在红狐狸身上，或者两只狐狸的姿势高度相似缺乏多样性。

这种现象的根源在于传统扩散模型中的注意力机制缺乏对多主体空间关系的显式建模。具体来说：

注意力坍缩问题：在生成过程中，不同文本token对应的注意力图容易相互重叠，导致语义混合
空间感知缺失：标准注意力计算忽略了像素/特征之间的空间邻近关系
优化目标单一：现有方法通常只关注单个主体的生成质量，缺乏多主体协同优化的目标函数

2. FOCUS算法设计原理

2.1 空间感知的Jensen-Shannon散度

FOCUS的核心是设计了一个基于Jensen-Shannon散度(JSD)的空间感知注意力分离目标。与传统方法相比，其创新性体现在：

def spatial_jsd(attention_maps): # 步骤1：将token嵌入图重塑为目标图像的宽高比 h, w = target_height, target_width reshaped_maps = [reshape(map, (h, w)) for map in attention_maps] # 步骤2：应用2D高斯平滑（核大小为3） smoothed_maps = [gaussian_filter(map, sigma=1) for map in reshaped_maps] # 步骤3：展平后计算JSD flattened_maps = [flatten(map) for map in smoothed_maps] return compute_jsd(flattened_maps)

这种设计的优势在于：

保留局部性：高斯平滑确保空间邻近的激活点获得相似权重
避免网格伪影：平滑操作防止优化过程中出现不自然的网格状注意力分布
可微分性：整个计算流程保持可微，适合端到端训练

2.2 注意力图聚合策略

现代文本到图像模型（如Stable Diffusion 3.5）通常采用扩散Transformer架构，包含多个处理文本和图像token的注意力块。FOCUS采用先聚合后评分的策略：

单独处理文本和图像token的跨注意力块
对每个token的所有有效注意力图进行平均
排除同时处理文本和图像token的混合块

这种策略相比逐块计算的优势：

提供更稳定的优化方向
减少不同块间可能存在的冲突梯度
降低计算开销（只需处理聚合后的单一注意力图）

2.3 正则化设计取舍

初期实验尝试引入熵正则项来防止注意力过度集中：

H(p) = -\sum_i p_i \log p_i \\ \hat{H}(p) = H(p)/\log d \in [0,1] \\ \mathcal{L}_{reg} = \gamma_{reg} \cdot \frac{1}{|S|}\sum_{s\in S}(1-\hat{H}(m_s))

但实证发现：

小γ_reg时正则项几乎不起作用
大γ_reg会导致注意力质量从主体区域逃逸而非稳定分布
最终方案完全依赖概率目标函数，不引入显式正则项

3. 实现细节与工程实践

3.1 流匹配框架下的控制算法

FOCUS可无缝集成到流匹配(FM)和扩散模型的两种生成范式：

确定性ODE采样：

def controlled_ode_step(x, t): # 基础速度场 v_base = model(x, t) # 计算FOCUS梯度 grad_f = compute_focus_gradient(x, t) # 时间加权控制 u = -(1 - t) * grad_f # 更新步 return v_base + u

随机SDE采样：

def controlled_sde_step(x, t): drift = model(x, t) diffusion = sigma(t) # FOCUS梯度加权 grad_f = compute_focus_gradient(x, t) u = -0.5 * diffusion**2 * grad_f # 更新步 return drift + u, diffusion

3.2 超参数配置经验

基于大量实验得出的最佳实践：

参数	推荐值	作用域	调整建议
λ	0.1-4.0	控制强度	从1.0开始，按0.5步长调整
高斯核大小	3×3	空间平滑	固定不变
时间加权	σ²_mem(t)	控制调度	使用预设曲线
学习率	5e-5	微调阶段	配合λ等比例缩放

关键提示：λ>8时易产生过度锐化或纹理噪声，λ<0.1时效果不明显。不同模型需要独立调参。

4. 多模型适配方案

4.1 Stable Diffusion 3.5适配

作为DiT架构的代表，SD3.5的适配相对直接：

提取所有跨注意力层的输出
按头/层平均后resize到16×16
应用FOCUS算法计算梯度

4.2 U-Net架构适配（SD1.5）

对于基于U-Net的旧版模型，需要特殊处理：

收集所有分辨率下的跨注意力图（从64×64到8×8）
双线性插值统一上采样到32×32
跨层/头平均后处理

# SD1.5的特殊聚合逻辑 def aggregate_unet_maps(maps_dict): target_size = 32 resized_maps = [] for res in [64, 32, 16, 8]: for map in maps_dict[res]: resized_maps.append(resize(map, target_size)) return np.mean(resized_maps, axis=0)