当前位置：首页 > news >正文

如何用扩散时间步令牌（DDT）让LLM真正‘看懂‘图像？一个技术拆解

news 2026/7/14 20:44:22

如何用扩散时间步令牌（DDT）让LLM真正'看懂'图像？一个技术拆解

当大型语言模型（LLM）在文本领域展现出惊人能力时，一个根本性问题始终困扰着研究者：为什么同样的架构在处理图像时表现平平？传统方法将图像分割为空间令牌（spatial tokens），但这些二维片段缺乏语言模型擅长的递归结构。扩散时间步令牌（Diffusion Timestep Tokens, DDT）的提出，正在彻底改变这一局面。

1. 为什么传统方法失败了：空间令牌的根本缺陷

在计算机视觉领域，将图像转换为令牌序列的标准做法是通过卷积神经网络或视觉Transformer提取局部特征。这些空间令牌存在三个致命弱点：

缺乏递归性：每个令牌独立编码局部信息，无法像语言那样通过前文预测后文
信息冗余：相邻令牌包含大量重复的底层视觉特征
模态冲突：理解任务需要抽象语义，生成任务需要保留细节

# 传统空间令牌生成示例（ViT风格） def extract_spatial_tokens(image): patches = split_into_patches(image) # 通常16x16像素 tokens = [encode_patch(p) for p in patches] # 独立编码每个区块 return tokens # 长度固定的无序集合

对比实验显示，当LLM处理256个空间令牌时：

指标	文本序列	空间令牌	DDT令牌
困惑度（PPL）	12.3	87.6	15.2
注意力集中度	0.82	0.31	0.78
序列建模准确率	94%	38%	89%

2. DDT的核心创新：时间步驱动的递归视觉语言

扩散模型在生成图像时，会经历从噪声到清晰图像的渐进过程。DDT令牌的关键洞察在于：扩散过程的每个时间步都对应特定的信息抽象层级。

2.1 令牌生成机制

DDT令牌的生成流程包含三个关键组件：

连续特征编码器：将输入图像映射到潜空间
向量量化（VQ）层：产生离散令牌
扩散解码器：用前t个令牌重建图像

递归关系表示为：

f_{t+1}(x_0) = (f_t(x_0), V_{t+1})

其中V_{t+1}专门补偿x_{t+1}较x_t丢失的属性

提示：这种设计使每个新令牌都建立在前序令牌基础上，形成类似语言的递归结构

2.2 与扩散模型的协同工作

在训练阶段，系统通过两个关键损失函数优化：

重建误差：确保令牌能准确还原图像
Commitment损失：提升量化码本利用率

实验显示，DDT的码本利用率达到99%，而传统VQ方法通常只有60-70%。这意味着几乎每个离散令牌都得到了有效利用。

3. 实际应用：统一的多模态建模框架

将DDT集成到LLM中需要解决几个工程挑战：

3.1 词汇表扩展

典型实现需要扩展原始LLM的词汇表：

class DDT_LLaMA(nn.Module): def __init__(self, base_llm): super().__init__() self.llm = base_llm # 添加65536个视觉令牌类型 self.llm.resize_token_embeddings(base_llm.config.vocab_size + 65536) self.diffusion_decoder = load_pretrained_diffusion_model()