当前位置：首页 > news >正文

Emu3.5 视觉 tokenizer 及其 decoder 的训练过程

news 2026/6/11 1:32:59

下面我把Emu3.5 视觉 tokenizer 及其 decoder 的训练完整过程，按照“论文明确写到的部分”“公开代码能对上的部分”“需要用开源近似路线复现的部分”三层重新整理。先给结论：

结论：Emu3.5 的视觉部分其实不是“一次性训练完一个模块”，而是至少分成两条链路：
第一条是vanilla vision tokenizer的训练：卷积式 encoder/decoder + IBQ 量化器 + 大码本 + 重建/感知/GAN/熵/语义蒸馏联合优化；
第二条是optional diffusion image decoder的训练：以已经量化好的视觉 token 作为条件，再训练一个基于 flow matching 的高保真图像解码器，并额外做 LoRA distillation 来把采样步数从 50 压到 4。论文还单独扩展了视频 decoder，但那已经超出“图像 tokenizer 本体”的最核心训练链。(arXiv)

1. Emu3.5 的 tokenizer 到底训练了什么

从论文第 2.3 节、HF 配置、以及公开的IBQ/quantize代码看，Emu3.5 的视觉 tokenizer 本体由这几部分组成：

卷积式Encoder
quant_conv：把 encoder latent 映射到量化空间
IBQ / IndexPropagationQuantize
post_quant_conv：把量化特征映回 decoder 空间
卷积式Decoder

在公开实现里，IBQ类明确包含encoder、decoder、quantize、quant_conv和post_quant_conv，其前向过程就是encode -> quantize -> decode。HF 配置则给出了关键结构参数：codebook_size=131072、embed_dim=256、z_channels=256、ch=256、ch_mult=[1,1,2,2,4]、num_res_blocks=4、attn_resolutions=[16]。(GitHub)

可以把它概括成下面这张图：

论文明确说其视觉词表大小为131,072，总词表为151,854 文本 token + 131,072 视觉 token = 282,926；同时 tokenizer 相比 Emu3 把同一张图所需 token 数减少到四分之一，但作者也明确承认：512×512 图像仍需要 1024 个 token。(arXiv)

2. tokenizer 训练的完整流程

2.1 数据准备阶段

论文第 5.1 节把 tokenizer 训练数据分成三组：

General：ImageNet、OpenImage、CC3M、CC12M，以及电影、游戏录像、vlog 等自有多域数据。
Aesthetic：来自开源网站的高质量图像。
Specific：专门针对文本与人脸的富集数据。文本侧使用 TextAtlas5M、PosterCraft、LAION 子集；人脸侧通过 RetinaNet 从 Midjourney、COYO-700M、DataComp、JourneyDB 等来源做筛取。(arXiv)

同时，论文明确写了图像预处理与过滤：