2025_NIPS_Parts of Speech–Grounded Subspaces in Vision-Language Models
文章总结与翻译
一、主要内容
该研究针对CLIP等视觉-语言(VL)模型中潜在表示存在视觉属性纠缠的问题,提出了一种基于词性(PoS)监督的子空间学习方法,旨在分离图像/文本表示中不同的视觉变化模式(如内容与外观)。
- 核心问题:CLIP的联合视觉-语言空间表示会将多种视觉属性(如物体类别、外观风格、动作等)纠缠在一起,导致模型易受攻击(如排版攻击)、生成结果不可预测(如输入艺术家名字同时生成人物和其作品风格),且下游任务性能受限于这种纠缠。
- 解决思路:利用自然语言中词性与特定视觉变化模式的语义关联(名词对应物体内容、形容词对应外观特征等),学习几何感知的子空间,在保留数据流形几何结构的同时,分离目标视觉属性与其他无关属性的表示。
- 技术方案:
- 构建目标函数,通过迹最大化问题学习词性特定子空间,最大化目标词性的表示方差,同时最小化其他词性的方差,且存在闭式解(目标矩阵的前k个特征向量)。
- 考虑到CLIP表示位于超球面流形,将子空间学习扩展到流形的切空间中,通过对数映射和指数映射实现流形几何结构的尊重。
- 实验验证:
- 定性验证:通过文本到图像生成模型,展示子空间能分离内容与风格(如仅生成艺术家作品或仅生成艺术家本人),且能移除特定视觉主题(如血腥风格、艺术家模仿风格)。
- 定量验证:在15个数据集的零样本分类任务中,14个数
