当前位置: 首页 > news >正文

<span class=“js_title_inner“>【ICLR26-王欢-西湖大学】MergeMix:一种用于视觉和多模态理解的统一增强范式</span>


文章:MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding

代码:https://github.com/JinXins/MergeMix

单位:西湖大学、浙江大学计算机科学与技术学院


一、问题背景

多模态大语言模型(MLLMs)在视觉问答、跨模态推理等场景中展现出强大能力,但模型对齐人类偏好和任务需求时面临两难困境:监督微调(SFT)虽稳定却依赖大量人工标注,泛化性不足;强化学习(RL)能捕捉偏好但计算成本高、训练不稳定。

同时,传统数据增强方法也存在明显短板:要么依赖随机操作导致数据质量不可控,要么无法将增强策略与模型训练目标有效绑定,难以兼顾效率与性能。无论是纯图像分类任务,还是多模态理解任务,都亟需一种能平衡扩展性、效率和对齐效果的统一解决方案。

二、方法创新

MergeMix 提出以“令牌合并+偏好对齐”为核心的统一增强范式,巧妙衔接 SFT 与 RL 的优势,具体创新点包括:

  1. 令牌合并驱动的智能混合:通过 ViT 模型的令牌合并技术(ToMe)生成聚类注意力图,精准捕捉图像关键特征区域,再结合二分软匹配策略构建混合掩码,让混合样本既保留有效信息,又实现标签与混合比例的精准对齐。

  2. 软偏好边际的优化机制:将原始清晰图像定义为“优质答案(Winner)”,MergeMix 生成的混合图像定义为“非优选答案(Loser)”,并将混合比例作为软偏好分数,通过改进的混合 SimPO 损失函数实现自适应偏好调优,无需额外训练奖励模型。

  3. 跨任务统一框架:一套机制同时适配两类核心任务——图像分类中通过令牌合并与标签重缩放提升精度,多模态模型中通过偏好对构建实现高效对齐,打破传统方法的任务局限性。

三、实验结果

1. 图像分类任务表现

  • 在 CIFAR100 数据集上,MergeMix 对 DeiT-Small 模型实现 78.68% 的 Top-1 准确率,较 TransMix 提升 2.51%;对 ViT-Large 模型准确率达 76.19%,领先同类方法最高 4.79%。

  • 斯坦福汽车数据集等细分类任务中,ViT-Base 模型准确率达 92.20%,刷新现有混合增强方法纪录。

  • 效率方面,ImageNet-1K 任务中 FLOPs 仅 3.56G(较 TransMix 降低 0.68G),吞吐量达 1591.66 TP/s,兼顾轻量化与高速推理。

2. 多模态模型对齐效果

  • LLaVA-7B 模型在 MMBench、SciVQA 等9个基准测试中,平均性能提升 1.27%,视觉问答与推理能力显著增强。

  • Qwen2.5-VL-Instruction 模型经 MergeMix 调优后,基准测试平均增益达 2.88%,数学推理等复杂任务表现尤为突出。

  • 校准能力优异,DeiT-Tiny 模型在 CIFAR100 上的期望校准误差(ECE)仅 6.7%,有效缓解模型“过度自信”问题。

四、优势与局限

核心优势

  1. 效率与性能双优:令牌合并技术减少冗余计算,混合比例与损失函数深度绑定,在降低训练成本的同时提升模型效果。

  2. 通用性强:无需针对特定任务修改架构,无缝适配图像分类与多模态理解,迁移成本低。

  3. 稳定性突出:避免 RL 训练的波动问题,同时克服传统数据增强的随机性缺陷,训练过程更可控。

现存局限

  1. 目前仅针对图像模态进行增强,未涉及文本模态的混合优化,多模态数据增强的精细度有待提升。

  2. 令牌合并策略为静态设计,缺乏自适应学习机制,无法根据不同数据分布动态调整合并逻辑。

五、一句话总结

MergeMix 以令牌合并技术为核心,通过统一的增强与偏好对齐框架,既解决了传统数据增强的质量失控问题,又打破了 SFT 与 RL 在多模态对齐中的性能权衡,为视觉与跨模态模型提供了高效、稳定、通用的训练新范式。

http://www.jsqmd.com/news/335953/

相关文章:

  • 2026年热门的陕西有机水溶肥/陕西水溶肥行业内口碑厂家推荐 - 行业平台推荐
  • 2026年评价高的陕西含腐植酸水溶肥/陕西水溶肥高评分品牌推荐(畅销) - 行业平台推荐
  • 光刻胶用屏蔽剂
  • 2026年比较好的陕西天然生物刺激素/天然生物刺激素品牌厂家推荐 - 行业平台推荐
  • 2026年知名的天然生物刺激素/陕西生物刺激素高口碑厂家推荐(评价高) - 行业平台推荐
  • 实验室预约管理系统(开源 FastAPI + Vue )
  • 【ISAC+抗干扰+信号识别】5G ISAC+深度学习!破解智能交通“自干扰”难题,V2X通信准确率近100%【附代码】
  • 告别Docker拉取超时!三分钟搞定镜像加速与配置文件优化
  • 一键批量改名!184KB 迷你神器,免费无广!
  • 3 款宝藏小软件,工作效率直接起飞!
  • 吾爱精品!批量生成二维码,免费无广,轻松拿捏!
  • <span class=“js_title_inner“>中国信息协会:低空经济发展报告(2025-2026)</span>
  • 永久免费不限次,业界良心!太香了!
  • 吾爱 6 款迷你神器,每款都精准解决电脑痛点,免费实用拉满!
  • DeepSeek推出OCR 2模型!瞄准高难度文档识别
  • 主题生成AI PPT工具横评:ChatPPT何以成为公认第一?
  • 2026年SCRM软件品牌排行榜:企业微信服务商微盛·企微管家领跑
  • 深入解析 Android 开发工程师核心技能:从职位要求到实战面试
  • 【毕业设计】SpringBoot+Vue+MySQL 小区团购管理平台源码+数据库+论文+部署文档
  • SpringBoot+Vue spring boot疫情信息管理系统管理平台源码【适合毕设/课设/学习】Java+MySQL
  • Android开发工程师职位深度解析与面试指南
  • 深度解析安卓APP开发工程师岗位:从技术栈到面试实战
  • 2026年地暖定制口碑厂商综合评估与精选推荐 - 2026年企业推荐榜
  • 2026温州安卓云手机服务商综合评估与精选推荐 - 2026年企业推荐榜
  • 【2025最新】基于SpringBoot+Vue的毕业论文管理系统管理系统源码+MyBatis+MySQL
  • 企业级人事管理系统管理系统源码|SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】
  • 产品、研发、测试怎么协作:从需求评审到上线闭环的管理实践
  • <span class=“js_title_inner“>1篇搞懂AI通识:大白话拆解核心点</span>
  • <span class=“js_title_inner“>探索Playwright:前端自动化测试的新纪元</span>
  • <span class=“js_title_inner“>京东零售广告创意:统一的布局生成和评估模型</span>