【论文解读】FullFlow:用参数高效方法将文生图 Flow 模型升级为双向视觉-语言生成器
论文:FullFlow: Upgrading Text-to-Image Flow Matching Models for Bidirectional Vision–Language Generation
作者:Eric Tillmann Bill, Enis Simsar, Alessio Tonioni, Thomas Hofmann(ETH Zurich & Google)
arXiv:2605.20316 |项目主页:https://ericbill21.github.io/fullflow/
一、背景与动机
现代文生图(Text-to-Image)扩散/流模型,如Stable Diffusion 3(SD3)和FLUX.1,已在高保真图像合成任务上取得了令人瞩目的成果。这些模型通过大规模预训练,在连续潜在空间中习得了极为丰富的视觉语义先验。
然而,这些模型存在一个根本性的局限:它们只能单向工作——文本进、图像出。要让一个预训练的文生图模型同时支持"图生文"(image captioning)或视觉问答(VQA),通常有两种思路:
- 大规模联合预
