当前位置：首页 > news >正文

超越单目标分割：深入解读GRES如何用‘区域关系建模’搞定多目标与无目标指代

news 2026/5/26 17:12:05

超越单目标分割：GRES如何通过区域关系建模重塑视觉-语言理解范式

在计算机视觉与自然语言处理的交叉领域，指代分割（Referring Expression Segmentation，RES）一直扮演着关键角色。传统RES技术虽然能精准定位"穿红色衣服的女孩"这类单目标，却对"除了戴眼镜的两位男士外的所有人"或"画面左侧的两把椅子与右侧的茶几"这类复杂表达束手无策。这种局限性严重制约了智能系统在真实场景中的应用——现实世界中的视觉描述往往包含多目标组合、排除关系甚至否定语义。GRES（Generalized Referring Expression Segmentation）的提出，正是为了解决这一根本性挑战。

1. 传统RES的瓶颈与GRES的范式突破

1.1 单目标范式的结构性缺陷

现有RES系统在RefCOCO等基准测试中表现优异，但其设计存在三个本质局限：

目标数量假设：预设每个表达式对应单个实例，无法处理"A和B"、"除X外的所有Y"等复合结构
否定语义盲区：当描述"图像中没有穿西装的男士"时，模型仍会强制输出最匹配区域
关系建模缺失：现有方法主要关注目标属性识别，忽视目标间的空间/逻辑关系

这种缺陷在医疗影像分析、自动驾驶等场景尤为明显。例如放射科医生可能需要标注"所有直径超过5mm但未钙化的结节"，而车载系统需理解"右侧车道除卡车外的所有车辆"。

1.2 GRES的三大革新维度

GRES框架通过以下创新突破传统边界：

目标数量泛化：支持零到任意数量目标的指代
复合表达式解析：处理包含逻辑运算符（AND/OR/NOT）的复杂描述
动态关系推理：显式建模区域间的语义与空间依赖

关键技术指标对比：

维度	传统RES	GRES
目标数量支持	固定单目标	动态多目标
表达式复杂度	简单属性描述	复合逻辑表达式
关系建模	隐式特征融合	显式区域交互
负样本处理	强制输出	空掩码预测

2. ReLA模型：区域关系建模的核心架构

2.1 动态区域划分机制

ReLA（Region-Language Attention）模型的核心创新在于将图像动态划分为P×P个语义区域，每个区域具备三个特征：

视觉特征（Region-Image）：通过Swin Transformer提取的局部视觉表征
语言关联（Region-Language）：与文本表达式的跨模态对齐
区域交互（Region-Region）：空间与语义的依赖关系

# ReLA区域特征生成伪代码 def generate_region_features(image, text): # 视觉编码器 visual_feat = swin_transformer(image) # [H,W,C] # 文本编码器 text_feat = bert(text) # [Nt,C] # 动态区域划分 region_queries = learnable_queries(P**2, C) # 可学习区域查询 region_attn = cross_attn(region_queries, visual_feat) # 区域注意力图 # 关系建模 region_feat = weighted_sum(visual_feat, region_attn) region_relation = self_attn(region_feat) # 区域间交互 lang_relation = cross_attn(region_feat, text_feat) # 区域-语言交互 return fused_features(region_feat, region_relation, lang_relation)

2.2 跨模态注意力双通路

ReLA通过两个关键模块实现细粒度关系建模：

Region-Image Attention (RIA)

输入：视觉特征图 + 可学习区域查询
过程：动态生成P²个注意力图，每个对应图像特定区域
输出：区域感知的视觉特征

Region-Language Attention (RLA)

自注意力路径：计算区域间依赖关系
- 解决"最左侧的椅子与右侧桌子"的空间推理
交叉注意力路径：建立区域-单词对齐
- 处理"穿红衣但未戴帽子的行人"的属性组合

3. gRefCOCO：面向复杂关系的基准测试

3.1 数据集设计哲学

gRefCOCO包含27,823条表达式，其创新性体现在：

多目标样本（80,022条）：包含计数、逻辑运算、复合结构
- 例："第三和第五个货架上的所有商品"
无目标样本（32,202条）：测试模型否定推理能力
- 例："图像中没有出现摩托车"
复杂关系：同一图像不同描述对应不同目标集
- 对比："穿制服的工作人员" vs "不戴眼镜的工作人员"

3.2 评估指标创新

除传统IoU外，gRefCOCO引入：

指标	计算公式	评估重点
gIoU	所有样本IoU均值	整体性能
N-acc	TP/(TP+FN)（无目标样本）	否定判断能力
T-acc	TN/(TN+FP)（目标样本）	误报控制
Pr@0.7	IoU>0.7的样本占比	精准定位能力