当前位置: 首页 > news >正文

CUE: Concept-Aware Multi-Label Expansion to Mitigate Concept Confusion in Long-Tailed Learning

CUE:面向长尾学习中概念混淆问题的概念感知多标签扩展方法,主要解决基础模型在长尾学习微调过程中出现的概念混淆问题,本文中还指出在使用 CLIP 等基础模型进行长尾微调时,模型不仅会受到类别不均衡的影响,还会破坏原有的语义结构,从而导致相似类别之间的错误分类,为了解决这两个问题,本文提出 CUE,通过 VLM 和 LLM 构造概念相关类别,将原本的单标签监督扩展为概念感知的多标签监督,从而缓解长尾微调中的概念混淆问题。

会议:CVPR 2026

代码地址:https://github. com/zhangruichi/CUE

创新点:

1.提出长尾微调中的概念混淆问题,以往方法主要关注 class imbalance,但本文发现基础模型在长尾数据上微调时,会破坏原有的类间语义关系,导致尾部类样本被错分到语义相近类别中;

2.提出 CUE模型,将原本的单标签监督扩展为概念感知的多标签监督,使模型在学习真实类别的同时,也保留与该类别相关的视觉和语义关系;

3.设计两种互补的 cue:VLM-based Instance-Level Cue 用 CLIP zero-shot 预测找到当前图像视觉上最相似的类别;LLM-based Class-Level Cue 用大语言模型为每个类别构造语义邻居类别。

整体框架:

CUE整体框架图

1.VLM-based Instance-Level Cue(基于 VLM 的实例级提示):

首先,对于每一张训练图像,使用冻结的 CLIP 进行 zero-shot 分类,而文本端使用标准 prompt,然后计算图像特征和所有类别文本特征之间的相似度,结果可能会出现多个相似的类别,CUE 会从非真实类别中选出 Top-k 个相似类别,作为实例级 cue,然后构造多标签监督,此模块对于当前图像而言,这些类别虽然不是正确的,但它们和当前图像在 CLIP 语义空间中很接近,训练时不应该把它们全部强行压成负类,否则会破坏视觉相似类别之间的关系,因此此模块主要缓解的是实例级概念混淆,更关注这张图像看起来像哪些类别。

2.LLM-based Class-Level Cue(基于大语言模型的类别提示):

主要作用是利用大语言模型构建类别之间的语义邻居关系,VLM cue 是针对每一张图像动态生成的,而 LLM cue 是针对类别本身构建的,对于某一类别,LLM会给出一些相关的类别(这些类别之间存在语义层面的相似性或概念关联),进而真实类别和它的语义邻居都被作为辅助正标签,此模块主要缓解的是类别级概念混淆,更关注这个类别在语义上接近哪些类别。

3.BLA损失:Binary Logit Adjustment

因为 CUE 构造了多标签辅助监督,所以不能直接用普通交叉熵损失,对于多标签目标,更适合使用 BCE Loss,但普通 BCE 没有考虑长尾类别分布,所以作者提出了 BLA损失,也就是在 sigmoid 之前,对每个类别的 logit 加入类别先验调整,主要就是防止辅助标签训练时仍然被头部类主导以及让 VLM cue 和 LLM cue 可以稳定参与优化。

http://www.jsqmd.com/news/1123779/

相关文章:

  • PIC32与25CSM04 SPI EEPROM高速数据检索实现
  • 5分钟解锁你的音乐宝库:qmcdump音频格式转换工具完全指南
  • 强力解锁喜马拉雅音频自由:跨平台下载神器XMly-Downloader-Qt5深度解析
  • 终极智能控制:用Turbo Boost Switcher重新掌控你的Mac性能体验
  • 蛋糕烘焙小程序|实用线上展示页面设计分享
  • Office批量打印软件推荐,告别低效操作
  • Python 语法基础 IO
  • Java非对称加密实战:RSA、DSA、ECC算法对比与选型指南
  • C++中的STL与标准库算法
  • 杭州创始人IP打造运营如何进行?
  • 通过kickstart 执行mysql、clickhouse数据导入
  • Web应用文件安全:IDOR、路径遍历与SSRF漏洞防御实战
  • 5分钟自动化部署:Brigadier跨平台Boot Camp驱动管理解决方案
  • 做网课直播还在用手比划?这两款键盘鼠标显示工具,让观众看清你的每一步操作
  • AI 电动窗帘电机智能驱动 静音化、高效率 完整选型方案
  • HoRain云--Java文档注释规范与最佳实践指南
  • 当青春记忆面临消失危机时,QZoneExport如何为你守护数字时光
  • SMT贴片机抛料原因深度解析
  • 【花雕动手做】行空板 K10 系列实验之TT马达双路差速智能小车方案三号特色底盘
  • 面试技巧及注意事项
  • 堆与优先队列的并发安全实现机制的技术7
  • 基于Si4731与PIC18LF47K42的FM/AM收音机系统设计
  • Java多态:一个父类引用,搞定千变万化的子类
  • OpCore Simplify:10分钟完成黑苹果OpenCore EFI配置的终极指南
  • iOS解锁工具终极指南:AppleRa1n快速解决二手iPhone激活锁问题
  • 【MySQL】一文读懂 MySQL 事务控制与 MVCC 多版本并发控制底层原理
  • 2026年7月Agent开发面试题 -- 高阶篇
  • 2026年7月全球企业小程序开发工具测评:含零代码SAAS、AI编程、源码定制
  • 2025微信小程序反编译终极指南:如何用unveilr快速提取小程序源码
  • Kimi LeetCode 3459. 最长 V 形对角线段的长度 C语言实现