当前位置：首页 > news >正文

2025_NIPS_Parts of Speech–Grounded Subspaces in Vision-Language Models

news 2026/7/22 0:40:13

文章总结与翻译

一、主要内容

该研究针对CLIP等视觉-语言（VL）模型中潜在表示存在视觉属性纠缠的问题，提出了一种基于词性（PoS）监督的子空间学习方法，旨在分离图像/文本表示中不同的视觉变化模式（如内容与外观）。

核心问题：CLIP的联合视觉-语言空间表示会将多种视觉属性（如物体类别、外观风格、动作等）纠缠在一起，导致模型易受攻击（如排版攻击）、生成结果不可预测（如输入艺术家名字同时生成人物和其作品风格），且下游任务性能受限于这种纠缠。
解决思路：利用自然语言中词性与特定视觉变化模式的语义关联（名词对应物体内容、形容词对应外观特征等），学习几何感知的子空间，在保留数据流形几何结构的同时，分离目标视觉属性与其他无关属性的表示。
技术方案：
- 构建目标函数，通过迹最大化问题学习词性特定子空间，最大化目标词性的表示方差，同时最小化其他词性的方差，且存在闭式解（目标矩阵的前k个特征向量）。
- 考虑到CLIP表示位于超球面流形，将子空间学习扩展到流形的切空间中，通过对数映射和指数映射实现流形几何结构的尊重。
实验验证：
- 定性验证：通过文本到图像生成模型，展示子空间能分离内容与风格（如仅生成艺术家作品或仅生成艺术家本人），且能移除特定视觉主题（如血腥风格、艺术家模仿风格）。
- 定量验证：在15个数据集的零样本分类任务中，14个数

http://www.jsqmd.com/news/881857/

相关文章：

Keil uVision开发环境文件类型全解析

基于经典机器学习模型的GitHub代码审查评论情感分析实践

呼伦贝尔市黄金回收白银回收铂金回收彩金回收门店优选+2026年最新黄金回收TOP5排行榜及联系方式推荐 - 盛世金银回收

Java IO：流、File文件、字节流、字符流、序列化与反序列化

从0到1构建奶牛行为智能监控系统（七）基于langchain的智能体构建

LLM推理解耦技术：提升大型语言模型推理效率的关键方法

IDEA 2026.2 EAP 2 新特性：Live Templates 升级

湖州市黄金回收白银回收铂金回收彩金回收门店优选+2026年最新黄金回收TOP5排行榜及联系方式推荐 - 盛世金银回收

基于大语言模型的表位智能设计与筛选：epiGPTope项目解析

别再只会用`echo mem ＞ /sys/power/state`了：手把手带你理解Linux内核的三种休眠模式

跨VM RowHammer攻击防御技术与DRAM安全研究

DeepSeek V3多模态扩展能力首曝（仅限首批合作机构验证数据）

Java YOLO推理精度漂移终极解决方案：从预处理到后处理的工业级优化指南

ARM SVE架构WHILEGT指令详解与应用优化

Rancher 安装与配置文档

search_reports 减少AI里Tokens 消耗

ARM SME指令集与MOVA指令详解：矩阵运算优化

面试官问我Redis，我背了八股文，他却问我“为什么缓存会雪崩”

基于CNN自编码器的量子态误差缓解：从密度矩阵图像修复到NISQ应用

量子机器学习预测误差：从T/N线性关系到紧致界理论突破

基于Nginx的局域网HTTP Yum源搭建

2025-2026年时余家具电话查询：选购中古风实木家具前请核实资质 - 品牌推荐

2026年智己LS8优势深度解析：家庭SUV续航痛点与实用价值 - 品牌推荐

深度学习MRI加速：DeepFoqus-Accelerate如何实现4倍扫描速度与无损诊断质量

病房钢制门十大品牌有哪些？

2025-2026年尚百年电话查询：定制全铝家居前需核实资质与合同条款 - 品牌推荐

2026年智己LS8优势续航深度分析：家用SUV场景续航焦虑与操控痛点解析 - 品牌推荐

Unity 2020.1实战：用UGUI和AudioSource搞定酷狗同款音乐频谱（附完整代码）

Go Sidecar 主循环并发化改造：让请求不再排队堵在门口

基于机器学习的癫痫发作检测与预测：从EEG信号处理到LSTM时序建模