当前位置：首页 > news >正文

DualToken如何让模型理解自己画出来的东西？

news 2026/6/17 13:48:16

DualToken如何让模型理解自己画出来的东西？

论文简述

图像理解着重深度的语义，图像生成着重细节的纹理，像素，两者先天不相容。DualToken通过ViT天生自带的分层来生成两套token，实现了一个模型既能生成图像又能理解图像。

正文

依旧非常长的论文题目，依旧底部给arxiv链接

话说主包一直很喜欢看毕导，漫士沉思录，小Lin说这种风格的科普视频

这种科普风格都有一种共同点，就是不咋叠公式叠细节，但是及其凝练，让没有专业背景的人也能看懂

其实理解了这个也就能理解今天所说的ViT层级特性，也就是DualToken的核心了

首先，我们要明白一点：目前的LLM看不懂图片，你直接给LLM塞一张图片，它只能看到一堆莫名其妙的RGB矩阵，如果我们要做文生图或者图生文，应该怎么做呢？

虽然LLM看不懂图片，但是我们可以通过某种方式，把一张图片从图像翻译成token，就能让LLM“理解”图片了

这个图像-token翻译官有一个名字叫Visual Tokenizer（以下简称偷啃来者）

不同的偷啃来者，处理图片的方法也是不同的，主要有两个流派：

微操派：微操派担大梁的是VQ-VAE。把一张图一刀一刀切成很多小patch，生成的就是一串离散码本token（就是会弄一本字典，记不同的token对怎样的小patch），它最擅长把一个图片尽可能的还原清楚。最擅长的是纹理，颜色，边缘，清晰度等等特别细的细节
宏观派：宏观派主要是CLIP/SigLIP。拿着图片和文字训练，它最擅长的就是比相似度，看图文匹不匹配这种工作。

看到这里，读者应该差不多懂了，微操派像无聊的课本，事无巨细，适合拿来做图像生成；宏观派像科普视频，适合拿来做真正的图像理解。

那怎么才能让模型又会图像理解又会生成图像呢？

在此前主要有两种办法，首先是直接正面硬刚，一张网络训练两种目标（VILA-U,MUSE-VL,QLIP等），这种也是很拉的，人本来就是水火不相容，强行同时训练，最后基本上是两头不讨好；还有一种方法是东拼西凑，干脆直接上两个模型，然后再拿管道接起来，这导致结构复杂不说，LLM还要学两套视觉语言，特征空间不一致，速度也是很慢

讲到这里，我们先放一放，讲一下图像识别的方法的演进

在以前的时候，我们做图像识别都是用的CNN网络，比如ResNet，VGG这些，什么视觉人物都是靠的CNN，图片分类，目标检测，图片分割等。。。

在以前，CV就是CNN

但是2017年，注意力机制魔童降世，很快就把NLP领域搅成了浑水

2020年，有注意力特别集中的神人发现，注意力似乎也可以拿来做图像分类呀？

于是伴随着一股强劲的BGM，ViT降生了，很快就在图像分类领域和多模态领域把CNN绞杀了

ViT的工作流程是，首先把一整张图片切成很多小Patch（比如16 * 16像素），然后把它们映射成向量，最后再送入Transformer，慢慢拼凑出整体信息

为什么我们讲着LLM的两种tokenizer，突然跳到了ViT呢？

原来论文的灵珠作者注意到了一件事情：ViT的比较浅的层数，特别接近微操派的分token，而比较深的层数，就比较接近宏观派的分token了

这就像，你第一次打开一本三角函数速查表，你看到了从1倍到3倍到无穷多倍的值，你不断发动你的注意力并且一遍又一遍苦读，后面你发现了诱导公式，最后你终于发现了：奇变偶不变，符号看象限

作者是通过观察1-26层的ViT，不同的聚类发现这一现象的，低层数偏好按色彩和纹理等分类，比如金色的猫和金色的狗放一类，高层数偏好按语义分类，比如猫一类，狗一类

恭喜！这就是论文提出的核心的解决方案！现在我们只要训好一张ViT就能同时输出两种我们要的Token

论文的核心设计就是准备两个码本，一个是像素码本，来自前四分之一层特征，用来做生成，然后是语义码本，来自深层，用来做图文版对齐

同时两个任务要在不同层训练，互不干扰。浅层就弄重建损失，深层就做语义损失，互相独立量化，不共用和干扰，最后加VQ两户损失，保证不漂移

最后把两套token送给大模型，完美

结语

本论文rFID是0.25，ImageNet零样本分类达到82%，3B小模型优于7B模型

主包也是在想，会不会以后只要一套token就行了？说不定大佬们可以试试，~~论文记得给我也挂个名字~~

原文

Song W, Wang Y, Song Z, et al. DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies[C]//Proceedings of the International Conference on Learning Representations (ICLR). 2026.

arxiv号：2503.14324

查看全文

http://www.jsqmd.com/news/684652/