CUE: Concept-Aware Multi-Label Expansion to Mitigate Concept Confusion in Long-Tailed Learning
CUE:面向长尾学习中概念混淆问题的概念感知多标签扩展方法,主要解决基础模型在长尾学习微调过程中出现的概念混淆问题,本文中还指出在使用 CLIP 等基础模型进行长尾微调时,模型不仅会受到类别不均衡的影响,还会破坏原有的语义结构,从而导致相似类别之间的错误分类,为了解决这两个问题,本文提出 CUE,通过 VLM 和 LLM 构造概念相关类别,将原本的单标签监督扩展为概念感知的多标签监督,从而缓解长尾微调中的概念混淆问题。
会议:CVPR 2026
代码地址:https://github. com/zhangruichi/CUE
创新点:
1.提出长尾微调中的概念混淆问题,以往方法主要关注 class imbalance,但本文发现基础模型在长尾数据上微调时,会破坏原有的类间语义关系,导致尾部类样本被错分到语义相近类别中;
2.提出 CUE模型,将原本的单标签监督扩展为概念感知的多标签监督,使模型在学习真实类别的同时,也保留与该类别相关的视觉和语义关系;
3.设计两种互补的 cue:VLM-based Instance-Level Cue 用 CLIP zero-shot 预测找到当前图像视觉上最相似的类别;LLM-based Class-Level Cue 用大语言模型为每个类别构造语义邻居类别。
整体框架:
1.VLM-based Instance-Level Cue(基于 VLM 的实例级提示):
首先,对于每一张训练图像,使用冻结的 CLIP 进行 zero-shot 分类,而文本端使用标准 prompt,然后计算图像特征和所有类别文本特征之间的相似度,结果可能会出现多个相似的类别,CUE 会从非真实类别中选出 Top-k 个相似类别,作为实例级 cue,然后构造多标签监督,此模块对于当前图像而言,这些类别虽然不是正确的,但它们和当前图像在 CLIP 语义空间中很接近,训练时不应该把它们全部强行压成负类,否则会破坏视觉相似类别之间的关系,因此此模块主要缓解的是实例级概念混淆,更关注这张图像看起来像哪些类别。
2.LLM-based Class-Level Cue(基于大语言模型的类别提示):
主要作用是利用大语言模型构建类别之间的语义邻居关系,VLM cue 是针对每一张图像动态生成的,而 LLM cue 是针对类别本身构建的,对于某一类别,LLM会给出一些相关的类别(这些类别之间存在语义层面的相似性或概念关联),进而真实类别和它的语义邻居都被作为辅助正标签,此模块主要缓解的是类别级概念混淆,更关注这个类别在语义上接近哪些类别。
3.BLA损失:Binary Logit Adjustment
因为 CUE 构造了多标签辅助监督,所以不能直接用普通交叉熵损失,对于多标签目标,更适合使用 BCE Loss,但普通 BCE 没有考虑长尾类别分布,所以作者提出了 BLA损失,也就是在 sigmoid 之前,对每个类别的 logit 加入类别先验调整,主要就是防止辅助标签训练时仍然被头部类主导以及让 VLM cue 和 LLM cue 可以稳定参与优化。
