当前位置: 首页 > news >正文

论文阅读:MMA: Multi-Modal Adapter for Vision-Language Models

MMA:视觉语言模型的多模态适配器,主要用于改善文本与视觉分支表示之间的对齐,先分析 CLIP 不同层特征的“判别性 / 泛化性”,再只在高层插入一个带共享投影层的多模态适配器,让视觉和文本分支在学习任务特异知识的同时实现更好的跨模态对齐。

代码地址:https://github.com/ZjjConan/Multi-Modal-Adapter

创新点:

1.作者通过分析实验发现了CLIP模型不同层之间的性质有所不同:高层更判别,低层更泛化;文本分支比视觉分支更判别,且低层跨模态差距更大,为 适配器的插入位置提供依据;

2.论文设计了一个真正的多模态适配器 MMA,在视觉和文本两条分支中分别学习任务特异表示,并通过共享投影层建立跨模态桥梁,从而增强图文表示对齐。

主要架构:

1.MMA 的宏观设计:加在哪些层之间

各种基于 Transformer 的 CLIP 模型中不同层的数据集级识别精度

作者从 CLIP 的图像分支和文本分支中,提取各层特征,训练线性分类器去做“识别样本来自哪个数据集”的任务,通过分析得到了两个关键观察:

1)在图像分支和文本分支中都存在类似规律:低层 特征更偏通用,跨数据集更稳定,而高层 特征更偏任务相关,更容易区分不同数据集。这意味着如果在低层上强行调太多,很可能破坏CLIP 已经学到的通用知识;如果想适应当前少样本任务,更适合动高层,因为高层本来就更接近任务判别信息;

2)文本特征通常比视觉特征更可区分不同数据集,且文本和图像在 低层特征空间中的语义差距更大,而到了高层,两种模态的语义距离反而更容易对齐。

进而得出了MMA 不应该加在低层,而更应该加在高层,因为低层本身就更通用,而且视觉 / 语言模态差得更远,若在少样本下硬去对齐它们,反而更容易出问题。

2.MMA 的微观设计

先分别把视觉特征和文本特征投影到一个较低维空间,接着两个模态都会经过同一个共享投影层(这个层是 视觉和文本共享参数 的,也就是说,两个分支会被拉到同一个共享特征空间里去处理,文中提到其作为 bridge,让 vision 和 language 的梯度能够传播到彼此,从而实现更好的模态对齐),最后,再分别通过各自模态专属的 Up 层,把共享空间中的特征映射回原始维度。

应用创新:

由于MMA和SPARC都是基于CLIP的模块,因此想着将MMA模块融入进去,做一个轻量级的处理模块,可以让模型对其的更加好,但是结果不太乐观,结果非常差:

目前最好的结果依然是引进SPARC之后的:

目前的模型结构是:以BLIP模型做为基线模型,将原始数据集转换成了可供BLIP模型训练的caption形式,训练之后得到的标签识别的不太稳定,由此引入了多标签识别,得到了一点提升,最后的模型就是引入上周看的SPARC模块达到了最优效果。

http://www.jsqmd.com/news/783548/

相关文章:

  • 如何在Java面试中脱颖而出?掌握这些高级技巧就够了
  • 佛山市添明再生资源:南海区口碑好的钢渣回收厂家 - LYL仔仔
  • ReVa:基于MCP协议的AI逆向工程助手,提升Ghidra分析效率
  • 陕西中坤羽衡环保:新城乙烯基耐高温涂料批发公司有哪些 - LYL仔仔
  • 上饶黄金回收怎么选?3 区 8 县 1 市全覆盖,6 大品牌上门回收 + 实时金价 + 当场结款 - 金掌柜黄金回收
  • 2026年易碎品柔爪抓取方案主流款式与适配场景 - 品牌2026
  • AI+高通量实验驱动电池级碳酸锂工艺优化:从数据到决策的闭环实践
  • 2026年道路筑路设备采购完全指南:德州霖垚与五大品牌深度横评 - 企业名录优选推荐
  • 如何彻底解决显卡驱动冲突问题:Display Driver Uninstaller深度解析与实战指南
  • CCAA考试通过率是多少? - 众智商学院官方
  • CANN算子库AttentionUpdate接口文档
  • CANN/metadef自动映射函数注册
  • Agent 开发范式演进:从环境工程出发,“简化”多源实时上下文
  • 亨得利卡地亚官方认证服务渠道:2026年原厂配件、认证技师与全国7家直营网点全公开,400电话一键预约 - 亨得利腕表维修中心
  • 告别爬虫,用API高效获取App Store趋势数据:Python实战指南
  • 2026年山东沥青加温设备与道路养护筑路设备源头厂家深度横评指南 - 企业名录优选推荐
  • 2026年沥青加温设备与筑路设备源头厂家深度选购指南|德州霖垚专业对接 - 企业名录优选推荐
  • CANN/ops-math矩阵乘法压缩反量化算子
  • 从系统排名看趋势:国内CRM市场竞争格局的新变化与机遇 - Blue_dou
  • unity RaycastHit详解 - 冷夜
  • CANN/pyasc向量最小值函数
  • AI Agent团队技能包:集成OpenClaw、Claude Code与tmux实现自动化开发
  • 一文吃透HDLC协议|从帧结构到封装解封装
  • AI控制框架KendaliAI:从模型调用到智能体编排的工程化实践
  • AI时代高等教育重塑:教学反馈、学术诚信与未来技能挑战
  • GitHub Models实战指南:6个本地可运行的AI模型部署案例
  • 2026贵阳新房高端定制装修:5大实力品牌横评与透明报价对标 - 优质企业观察收录
  • 潮玩资产化新纪元!盲盒V6MAX源码系统小程序,国际版盲盒源码赋能盲盒定制开发,颠覆海外盲盒app源码程序与盲盒源码 - 壹软科技
  • CANN/pypto填充操作API文档
  • 2026汽车划痕补漆品牌对比评测与推荐:哪个更靠谱? - 阿喂嘞lvv