当前位置: 首页 > news >正文

论文阅读:StructXLIP: Enhancing Vision-language Models with Multimodal Structural Cues

StructXLIP:利用多模态结构线索增强视觉语言模型

这是一种微调对齐范例,可以提取边缘图,将它们视为图像视觉结构的代理,并过滤相应的标题以强调结构线索,使它们“以结构为中心”。

代码链接:https: //github.com/intelligolabs/StructXLIP

原文链接:[2602.20089v3] StructXLIP: Enhancing Vision-language Models with Multimodal Structural Cues

创新点:

1.提出了以结构为中心的多模态提取,将原始图片转变为边缘图,以及将原始文本缩减为结构中心文本;

2.在原有标准图像文本对齐损失上新加了三个辅助损失:全局结构对齐损失,局部结构对齐损失和一致性正则化损失,且损失模块可即插即用。

大体总结:

主要框架:

图1

1.以结构为中心的多模态提取

对于视觉结构,采用边缘检测器将原始图片提取边缘特征进而转变成边缘图,而对于文本结构,利用LLM和正则化过滤手段将原始文本转化为结构中心文本(去除多余的修饰词:颜色,材质等,只保留仅描述物体几何形状、布局、空间关系和结构特征的文本),如下图所示:

2.以结构为中心的多模态对齐:

如图1所示,原始图像文本对齐损失作为对齐目标基础,表示为对称InfoNCE损失,以余弦相似度作为相似性度量,此外,还引入了三个辅助学习目标,在多个级别上对齐以结构为中心的多模态内容:

(1)全局结构对齐损失:使用边缘图和结构文本进行对称InfoNCE对比学习,在结构层面进行全局对齐,忽略外观差异。

(2)局部结构对齐损失:先使用SAM对原始图像分割得到若干视觉区域 ,将结构文本按句号/分号切分为若干文本块,对每个文本块,计算其与最相关的K个视觉区域的对比损失。

(3)一致性正则化损失:防止边缘图的表示偏离原始图像中物体的位置,使用余弦相似度损失,约束两者表示在微调过程中保持接近。

补:一致性正则化:

用于防止模型在微调过程中产生“表示漂移”,StructXLIP 在微调时引入了结构中心对齐任务,即强制模型将边缘图的表示与结构中心文本的表示对齐,这意味着模型需要学习从边缘图中提取结构信息,然而,边缘图与原始彩色图像在视觉上差异很大(边缘图去除了颜色、纹理、光照等信息),如果只强调结构对齐,模型的视觉编码器可能会逐渐“适应”边缘图的分布,导致边缘图表示与原始图像表示在嵌入空间中越走越远,这就是所谓的“表示漂移”。

http://www.jsqmd.com/news/658847/

相关文章:

  • 两数之和、三数之和、k 数之和通用模板
  • 状态缓存与TTL:给每个设备状态贴一张“保质期”
  • LangChain 昨天悄悄打了个安全补丁,你的 Agent 可能正在被“越狱“
  • D4: 常见误区:管理者最容易踩的 5 个坑
  • 拼多多如何批量上下架商品?拼多多一键下架所有商品操作步骤
  • 解锁NVIDIA显卡潜力:用Profile Inspector深度优化游戏性能的终极指南
  • USB运动控制 (五轴雕刻机系统)全部开源 不保留任何关键技术,PCB可直接生产,C++6.0...
  • RAG大模型落地秘籍:文档+数据库双场景问答,代码即实战!
  • ArcGIS模型构建器实战:一个模型搞定多个GDB批量转SHP(附避坑技巧)
  • 为端到端API添加Naive RAG 流程
  • 漏检率0.05%!大厂供应链3C质检实战:C#工业相机+PLC联动外观缺陷检测全流程落地
  • 深度学习特征检测终极指南:SuperPoint完整教程与实战应用
  • ESP32 OTA升级实战:从零搭建一个带版本校验和自动回滚的远程固件更新服务
  • 数据中台进入“精耕期”:五大主流数据治理平台横向测评与选型指南
  • 35岁转行AI大模型开发?零基础也能逆袭!掌握这些资源,轻松拿高薪Offer!
  • SQLJOIN连接中如何处理复杂的业务规则_子查询逻辑封装与连接
  • Montgomery模乘算法详解:从数学原理到硬件优化(含CSA加法器设计)
  • 万象视界灵坛部署教程:青云QingCloud GPU云主机CLIP优化部署
  • 新概念英语第二册04_An exciting trip
  • 选型指南:数据中台落地关键,看AI如何重塑数据治理
  • 告别同步慢与数据泄露!2026国内主流企业网盘深度横评
  • mysql权限表查询性能如何优化_MySQL系统权限缓存原理
  • 如何高效使用开源音乐API:.NET开发者的完整实战指南
  • 2025_NIPS_LLM Layers Immediately Correct Each Other
  • 2026年靠谱的钛镁合金门窗厂家推荐与选型指南 - 品牌宣传支持者
  • 【GD32H759I-EVAL开发板】LVGL内存配置实战:从概念到性能调优
  • FPGA新手必看:用Verilog让无源蜂鸣器演奏《小星星》完整教程
  • Unity3D——UGI基础知识(1)
  • 堆(优先队列)基础原理与题目说明
  • SPOOLing 技术(假脱机技术)独占设备 → 虚拟共享设备