当前位置：首页 > news >正文

CUE: Concept-Aware Multi-Label Expansion to Mitigate Concept Confusion in Long-Tailed Learning

news 2026/7/4 20:07:28

CUE：面向长尾学习中概念混淆问题的概念感知多标签扩展方法，主要解决基础模型在长尾学习微调过程中出现的概念混淆问题，本文中还指出在使用 CLIP 等基础模型进行长尾微调时，模型不仅会受到类别不均衡的影响，还会破坏原有的语义结构，从而导致相似类别之间的错误分类，为了解决这两个问题，本文提出 CUE，通过 VLM 和 LLM 构造概念相关类别，将原本的单标签监督扩展为概念感知的多标签监督，从而缓解长尾微调中的概念混淆问题。
会议：CVPR 2026
代码地址：https://github. com/zhangruichi/CUE

创新点：

1.提出长尾微调中的概念混淆问题，以往方法主要关注 class imbalance，但本文发现基础模型在长尾数据上微调时，会破坏原有的类间语义关系，导致尾部类样本被错分到语义相近类别中；

2.提出 CUE模型，将原本的单标签监督扩展为概念感知的多标签监督，使模型在学习真实类别的同时，也保留与该类别相关的视觉和语义关系；

3.设计两种互补的 cue：VLM-based Instance-Level Cue 用 CLIP zero-shot 预测找到当前图像视觉上最相似的类别；LLM-based Class-Level Cue 用大语言模型为每个类别构造语义邻居类别。

整体框架：

1.VLM-based Instance-Level Cue（基于 VLM 的实例级提示）：

首先，对于每一张训练图像，使用冻结的 CLIP 进行 zero-shot 分类，而文本端使用标准 prompt，然后计算图像特征和所有类别文本特征之间的相似度，结果可能会出现多个相似的类别，CUE 会从非真实类别中选出 Top-k 个相似类别，作为实例级 cue，然后构造多标签监督，此模块对于当前图像而言，这些类别虽然不是正确的，但它们和当前图像在 CLIP 语义空间中很接近，训练时不应该把它们全部强行压成负类，否则会破坏视觉相似类别之间的关系，因此此模块主要缓解的是实例级概念混淆，更关注这张图像看起来像哪些类别。

2.LLM-based Class-Level Cue（基于大语言模型的类别提示）：

主要作用是利用大语言模型构建类别之间的语义邻居关系，VLM cue 是针对每一张图像动态生成的，而 LLM cue 是针对类别本身构建的，对于某一类别，LLM会给出一些相关的类别（这些类别之间存在语义层面的相似性或概念关联），进而真实类别和它的语义邻居都被作为辅助正标签，此模块主要缓解的是类别级概念混淆，更关注这个类别在语义上接近哪些类别。

3.BLA损失：Binary Logit Adjustment

因为 CUE 构造了多标签辅助监督，所以不能直接用普通交叉熵损失，对于多标签目标，更适合使用 BCE Loss，但普通 BCE 没有考虑长尾类别分布，所以作者提出了 BLA损失，也就是在 sigmoid 之前，对每个类别的 logit 加入类别先验调整，主要就是防止辅助标签训练时仍然被头部类主导以及让 VLM cue 和 LLM cue 可以稳定参与优化。

查看全文

http://www.jsqmd.com/news/1123779/