当前位置：首页 > news >正文

SHAMISA框架：自监督学习在无参考图像质量评估中的创新应用

news 2026/5/1 19:45:26

1. 项目概述：SHAMISA框架的核心创新

在计算机视觉领域，无参考图像质量评估(NR-IQA)一直是个极具挑战性的任务。想象一下，当你需要评估一张经过压缩或噪声污染的图片质量时，如果没有原始高清图片作为参考，仅凭肉眼判断就会变得异常困难——这正是NR-IQA要解决的痛点。传统方法要么依赖人工设计的特征(如BRISQUE)，要么需要大量昂贵的人工标注数据训练深度网络(如HyperIQA)，都存在明显局限性。

SHAMISA框架的突破在于它巧妙地规避了这两个瓶颈。其核心思路是通过自监督学习，直接从无标注的失真图像中挖掘质量感知特征。与常见的对比学习方法不同，SHAMISA采用了更精细的关系图监督机制，具体体现在三个关键设计：

首先，组合式失真引擎能够生成连续参数化的退化图像。不同于传统方法固定几种离散的失真类型和强度，这个引擎可以像调色盘一样混合多种失真(如同时添加模糊和噪声)，且每种失真的强度可以在连续范围内精确控制。这就好比不是简单地选择"轻度"或"重度"模糊，而是可以像旋钮一样在0到1之间无级调节模糊程度。

其次，双源关系图构建实现了细粒度的相似性学习。其中元数据驱动图利用已知的失真参数建立样本间关联，而结构内在图则通过特征空间的k近邻和聚类发现数据自身的拓扑结构。这两种图相辅相成，就像既参考地图导航又观察实际路况的智能驾驶系统。

最后，图加权VICReg目标函数将这些关系图转化为训练信号。传统对比学习需要精心设计正负样本对，而SHAMISA通过关系图的边权重自然地表达"哪些样本应该相似"的软约束。这种设计特别适合NR-IQA任务，因为图像质量的相似性本身就不是非黑即白的二元关系。

2. 技术实现细节解析

2.1 组合式失真引擎的工作原理

这个引擎的设计哲学是"控制变量法"。在生成训练批次时，系统会创建若干"微批次"(tiny-batch)，每个微批次包含：

3张原始参考图像(R=3)
4种基础失真组合(C=4)，如"模糊+噪声"或"色偏+压缩"
每种组合生成5个强度等级(L=5)，但关键技巧是：每次只改变其中一种失真的强度

这种设计产生了清晰的因果关系链。例如，当观察"模糊强度0.2→0.8"引起的特征变化时，可以确信这种变化只来自模糊程度的改变，因为其他失真参数保持恒定。这为后续的关系图构建提供了可靠的元数据基础。

具体实现上，失真组合从KADID-10K数据集的24种基础失真中采样，涵盖7大类：

亮度变化
模糊
空间失真(如形变)
噪声
色彩失真
压缩伪影
锐度与对比度变化

每种基础失真都经过标准化处理，将其原生参数空间(如高斯模糊的σ值)线性映射到[0,1]区间。这使得不同失真类型的强度具有可比性——比如噪声强度0.5和模糊强度0.5代表各自的中等失真水平。

2.2 双源关系图的构建方法

2.2.1 元数据驱动图

这类图直接利用失真生成过程中的已知参数构建，包含三种子图：

参考-失真图(Grd)：连接原始图像与其失真版本，边权重随失真强度递减。数学表达为：
```
Grd(r, x) = exp(-κ·s)
```
其中s∈[0,1]是归一化失真强度，κ是衰减系数。这保证了轻微失真的图像仍靠近原始图像，而严重失真的可以远离。
失真-失真图(Gdd)：连接相同失真类型但不同强度的图像，边权重与强度差异负相关：
```
Gdd(x₁, x₂) = exp(-κ·|s₁-s₂|)
```
这使得相似强度的失真图像在特征空间中彼此靠近。
参考-参考图(Grr)：所有原始图像间以固定小权重连接，形成一个高质量内容的锚点集合。

2.2.2 结构内在图

这类图从数据自身特征中挖掘潜在结构：

k近邻图(Gk)：基于特征空间的余弦相似度，为每个样本保留最相似的31个邻居(k=31)。这捕捉了人类视觉系统的一个关键特性——局部相似的图像在感知质量上也应该接近。
最优传输聚类图(Go)：通过可学习的原型向量将特征空间划分为软聚类，计算样本间的聚类分配相似性。具体使用Sinkhorn-Knopp算法确保聚类平衡，避免某些原型垄断大多数样本。