当前位置: 首页 > news >正文

DualToken如何让模型理解自己画出来的东西?

DualToken如何让模型理解自己画出来的东西?

论文简述

图像理解着重深度的语义,图像生成着重细节的纹理,像素,两者先天不相容。DualToken通过ViT天生自带的分层来生成两套token,实现了一个模型既能生成图像又能理解图像。

正文

依旧非常长的论文题目,依旧底部给arxiv链接

话说主包一直很喜欢看毕导,漫士沉思录,小Lin说这种风格的科普视频

这种科普风格都有一种共同点,就是不咋叠公式叠细节,但是及其凝练,让没有专业背景的人也能看懂

其实理解了这个也就能理解今天所说的ViT层级特性,也就是DualToken的核心了

首先,我们要明白一点:目前的LLM看不懂图片,你直接给LLM塞一张图片,它只能看到一堆莫名其妙的RGB矩阵,如果我们要做文生图或者图生文,应该怎么做呢?

虽然LLM看不懂图片,但是我们可以通过某种方式,把一张图片从图像翻译成token,就能让LLM“理解”图片了

这个图像-token翻译官有一个名字叫Visual Tokenizer(以下简称偷啃来者)

不同的偷啃来者,处理图片的方法也是不同的,主要有两个流派:

  1. 微操派:微操派担大梁的是VQ-VAE。把一张图一刀一刀切成很多小patch,生成的就是一串离散码本token(就是会弄一本字典,记不同的token对怎样的小patch),它最擅长把一个图片尽可能的还原清楚。最擅长的是纹理,颜色,边缘,清晰度等等特别细的细节

  2. 宏观派:宏观派主要是CLIP/SigLIP。拿着图片和文字训练,它最擅长的就是比相似度,看图文匹不匹配这种工作。

看到这里,读者应该差不多懂了,微操派像无聊的课本,事无巨细,适合拿来做图像生成;宏观派像科普视频,适合拿来做真正的图像理解。

那怎么才能让模型又会图像理解又会生成图像呢?

在此前主要有两种办法,首先是直接正面硬刚,一张网络训练两种目标(VILA-U,MUSE-VL,QLIP等),这种也是很拉的,人本来就是水火不相容,强行同时训练,最后基本上是两头不讨好;还有一种方法是东拼西凑,干脆直接上两个模型,然后再拿管道接起来,这导致结构复杂不说,LLM还要学两套视觉语言,特征空间不一致,速度也是很慢

讲到这里,我们先放一放,讲一下图像识别的方法的演进

在以前的时候,我们做图像识别都是用的CNN网络,比如ResNet,VGG这些,什么视觉人物都是靠的CNN,图片分类,目标检测,图片分割等。。。

在以前,CV就是CNN

但是2017年,注意力机制魔童降世,很快就把NLP领域搅成了浑水

2020年,有注意力特别集中的神人发现,注意力似乎也可以拿来做图像分类呀?

于是伴随着一股强劲的BGM,ViT降生了,很快就在图像分类领域和多模态领域把CNN绞杀了

ViT的工作流程是,首先把一整张图片切成很多小Patch(比如16 * 16像素),然后把它们映射成向量,最后再送入Transformer,慢慢拼凑出整体信息

为什么我们讲着LLM的两种tokenizer,突然跳到了ViT呢?

原来论文的灵珠作者注意到了一件事情:ViT的比较浅的层数,特别接近微操派的分token,而比较深的层数,就比较接近宏观派的分token了

这就像,你第一次打开一本三角函数速查表,你看到了从1倍到3倍到无穷多倍的值,你不断发动你的注意力并且一遍又一遍苦读,后面你发现了诱导公式,最后你终于发现了:奇变偶不变,符号看象限

作者是通过观察1-26层的ViT,不同的聚类发现这一现象的,低层数偏好按色彩和纹理等分类,比如金色的猫和金色的狗放一类,高层数偏好按语义分类,比如猫一类,狗一类

恭喜!这就是论文提出的核心的解决方案!现在我们只要训好一张ViT就能同时输出两种我们要的Token

论文的核心设计就是准备两个码本,一个是像素码本,来自前四分之一层特征,用来做生成,然后是语义码本,来自深层,用来做图文版对齐

同时两个任务要在不同层训练,互不干扰。浅层就弄重建损失,深层就做语义损失,互相独立量化,不共用和干扰,最后加VQ两户损失,保证不漂移

最后把两套token送给大模型,完美

结语

本论文rFID是0.25,ImageNet零样本分类达到82%,3B小模型优于7B模型

主包也是在想,会不会以后只要一套token就行了?说不定大佬们可以试试,论文记得给我也挂个名字

原文

Song W, Wang Y, Song Z, et al. DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies[C]//Proceedings of the International Conference on Learning Representations (ICLR). 2026.

arxiv号:2503.14324

http://www.jsqmd.com/news/684652/

相关文章:

  • 【AI实战日记-手搓情感聊天机器人】Day2 Day3:拒绝“屎山”!重构 Python 工程,为 AI 记忆模块铺路
  • 存储网络性能优化:挑战与解决方案
  • 构建 DevOps 辅助 Agent Harness
  • SecureCRT不止是终端:挖掘‘多窗口输入’和‘反空闲’的隐藏技巧,效率翻倍
  • 收藏!掌握 Harness Engineering,让 AI 在你的工作环境中稳定输出(小白程序员必备)
  • 四川硫酸钡板厂家技术分享:四川哪里有卖防辐射铅板的,四川硫酸钡厂家,四川硫酸钡板厂家,优选指南! - 优质品牌商家
  • Win11Debloat:三步完成Windows 11终极系统优化与隐私保护指南
  • 通用GUI编程技术——图形渲染实战(三十六)——Constant Buffer与数据传递:CPU-GPU通信通道
  • CSS Grid布局如何为特定项目指定位置_使用grid-row和grid-column
  • 手把手教你用Kotlin实现一个完整的App Links跳转逻辑(含参数解析与场景处理)
  • 医疗影像HTJ2K解码与GPU加速技术解析
  • 从MTBF到泊松分布:构建硬盘可靠性评估与预测的实战指南
  • Edge浏览器油猴插件安装与脚本管理保姆级教程(含离线备份与迁移指南)
  • 2026 年合肥专业的发电机出租/发电机租赁/静音发电机租赁/静音发电机出租/大型发电机组租赁厂家选择指南 - 海棠依旧大
  • 5分钟掌握PUBG压枪技巧:罗技鼠标宏终极指南
  • 实战指南:在Raspberry Pi 4B上搭建轻量化LLM推理引擎
  • ROS 摄像头标定实战:从单目到Kinect的完整流程与参数优化
  • 从零到一:构建浏览器内原生Office编辑体验的技术解密
  • QtScrcpy:电脑玩手游神器!3分钟实现安卓投屏+键鼠映射
  • 如何永久保存你的数字记忆?WeChatMsg聊天记录管理终极方案
  • 手机号逆向查询QQ号:终极免费工具完全指南
  • 从ffmpeg缺失到SSL报错:手把手教你搞定Stable Diffusion那些烦人的环境依赖
  • 2026年工业蒸汽流量计权威品牌TOP5实测排行 - 优质品牌商家
  • 三月七小助手:星穹铁道自动化助手终极指南,告别重复点击的完整解决方案
  • 3步快速上手:N_m3u8DL-CLI-SimpleG图形界面视频下载实战指南
  • 别再重装系统了!手把手教你在一台X86电脑上同时拥有UOS和麒麟V10(保姆级分区指南)
  • Tomcat8环境下JSTL 1.2与Standard 1.1.2的配置与实战验证
  • 2026 年苏州专业的铑回收/银回收/铱粉回收/金回收厂家选择指南 - 海棠依旧大
  • 如何快速将PNG/JPG转换为SVG矢量图:3步完成图像矢量化
  • Adobe-GenP 3.0:逆向工程视角下的Adobe许可证验证机制深度解析与架构揭秘