当前位置: 首页 > news >正文

【VarifocalNet(VFNet)论文阅读】:IoU-aware稠密目标检测,把定位质量塞进分类得分

论文信息

  • 标题:VarifocalNet: An IoU-aware Dense Object Detector
  • 会议:CVPR 2021
  • 单位:Queensland University of Technology、University of Queensland
  • 代码:github.com/hyz-xmaster/VarifocalNet
  • 论文:https://arxiv.org/pdf/2008.13367.pdf

一、开篇:稠密检测的千古难题——NMS排序不准

在一阶段/anchor-free检测器里,大家一直被一个问题坑:
分类得分 ≠ 定位好坏
很多框定位很准,但分类得分低,直接被NMS删掉;
有些框分类得分高,定位却很烂,反而被留下。

过去的做法:

  • 再加一个分支预测IoU/centerness,然后和分类得分相乘
    问题很明显:
    两个分支都有误差,乘起来更不准,还多了计算量

这篇直接给出终极方案:
不学单独的分类得分,也不学单独的定位得分,
直接学一个东西:IoU-aware Classification Score(IACS)

一个分数同时代表“有没有物体 + 定位准不准”。

再配上:

  • 不对称加权的Varifocal Loss
  • 高效星形框特征(Star-shaped)
  • 框精炼(Bounding Box Refinement)

最终:
✅ COCO普遍**+2.0 AP**
✅ 单模型单尺度最高55.1 AP
✅ 扔掉centerness分支,结构更干净
✅ NMS排序更合理,小物体/遮挡物体更强


二、核心动机:为什么IACS是最优解?

我们方法的示例。我们不是学习预测边界框的类别标签(a),而是学习交并比感知分类得分(IACS)作为其检测得分,该得分融合了对象存在置信度和定位精度(b)。我们提出了一种变焦损失来训练密集对象检测器以预测 IACS,并提出了一种星形边界框特征表示(九个黄色采样点处的特征)用于 IACS 预测。借助新的表示形式,我们将初始回归的框(红色)精炼为更准确的框(蓝色)。

IACS与传统分类得分对比
左侧:传统检测,只学类别标签(0/1)
右侧:VFNet,学IACS:真值类别位置=预测框与GT的IoU,其余=0

图片分析

  • 传统:分类只管“是啥”,定位只管“在哪”,两张皮
  • IACS:一个分数天然对齐分类与定位,NMS排序天然最优
    原文实验证明:
    把分类得分直接换成GT-IoU,AP能从39.2飙到74.7,说明方向完全正确。

FCOS 头部输出示例,其中包括分类得分、边界框以及中心性得分。

FCOS Head输出示意图
包含:分类得分、框偏移、centerness
图片分析
centerness是为了修正定位质量,但治标不治本,效果有限。
而VFNet直接删掉centerness,用IACS一统江湖。


三、三大核心创新:全文精读全覆盖

1. IACS:IoU-aware Classification Score

定义:
在分类向量里,真值类别的值 = 预测框与GT的IoU,其余为0。

一句话:
这个分数越高,代表“是这个类”且“框很准”。


2. Varifocal Loss(VFL):不对称加权神器

公式

V F L ( p , q ) = { − q ( q l o g ( p ) + ( 1 − q ) l o g ( 1 − p ) ) q > 0 − α p γ l o g ( 1 − p ) q = 0 VFL(p,q)= \begin{cases} -q(qlog(p)+(1-q)log(1-p)) & q>0 \\ -\alpha p^{\gamma}log(1-p) & q=0 \end{cases}VFL(p,q)={q(qlog(p)+(1q)log(1p))αpγlog(1p)q>0q=0

符号逐行解释:

  • p pp:模型预测的IACS
  • q qq:IACS标签(正样本=IoU,负样本=0)
  • q > 0 q>0q>0:正样本,不衰减、不降权,高质量正样本权重大
  • q = 0 q=0q=0:负样本,用p γ p^{\gamma}pγ只降权简单负样本
  • α \alphaα:负样本权重系数(默认0.75)
  • γ \gammaγ:聚焦参数(默认2.0)

通俗解释
正样本本来就少,一个都不能亏待,尤其是IoU高的优质正样本;
负样本太多,只学难的,简单的直接无视。


3. Star-shaped 星形框特征表示

星形9点采样示意图
9个固定点:中心点 + 上下左右4个中点 + 4个角点
基于可变形卷积提取特征。

图片分析

  • 比单点特征更能编码框形状+上下文
  • 比RoIAlign快得多,适合稠密检测
  • 为IACS预测和框精炼提供强特征

9个点坐标(由初始框l ′ , t ′ , r ′ , b ′ l',t',r',b'l,t,r,b得到):
( x , y ) (x,y)(x,y)( x − l ′ , y ) (x-l',y)(xl,y)( x + r ′ , y ) (x+r',y)(x+r,y)( x , y − t ′ ) (x,y-t')(x,yt)( x , y + b ′ ) (x,y+b')(x,y+b)
( x − l ′ , y − t ′ ) (x-l',y-t')(xl,yt)( x + r ′ , y − t ′ ) (x+r',y-t')(x+r,yt)( x − l ′ , y + b ′ ) (x-l',y+b')(xl,y+b)( x + r ′ , y + b ′ ) (x+r',y+b')(x+r,y+b)

通俗解释
用框本身的9个关键点位,代替随便一个中心点,特征自然更准。


4. Bounding Box Refinement 框精炼

初始框 → 星形特征 → 预测缩放因子→ 精炼框
l = Δ l ⋅ l ′ , t = Δ t ⋅ t ′ , r = Δ r ⋅ r ′ , b = Δ b ⋅ b ′ l=\Delta l \cdot l',\ t=\Delta t \cdot t',\ r=\Delta r \cdot r',\ b=\Delta b \cdot b'l=Δll,t=Δtt,r=Δrr,b=Δbb

两级监督:初始框损失 + 精炼框损失(GIoU)


四、整体架构

我们的 VFNet 的网络架构。VFNet 基于 FPN(P3-P7)构建而成。其头部由两个子网络组成,一个用于回归初始边界框并对其进行细化,另一个用于基于星形边界框特征表示(Star Dconv)预测与 IoU 相关的分类得分。H×w 表示特征图的大小。

VarifocalNet整体架构
Backbone → FPN → 两个Head:

  1. 定位Head:初始框 + 框精炼
  2. 分类Head:基于星形特征预测IACS
    去掉centerness,结构极简。

图片分析
完全基于FCOS+ATSS,改动极小,极易复现、即插即用。


五、总损失函数

L o s s = 1 N p o s ∑ V F L + λ 0 N p o s ∑ q L b b o x ( b b o x ′ , G T ) + λ 1 N p o s ∑ q L b b o x ( b b o x , G T ) Loss = \frac{1}{N_{pos}} \sum VFL + \frac{\lambda_0}{N_{pos}} \sum q L_{bbox}(bbox',GT) + \frac{\lambda_1}{N_{pos}} \sum q L_{bbox}(bbox,GT)Loss=Npos1VFL+Nposλ0qLbbox(bbox,GT)+Nposλ1qLbbox(bbox,GT)

  • N p o s N_{pos}Npos:正样本数量
  • λ 0 = 1.5 , λ 1 = 2.0 \lambda_0=1.5,\lambda_1=2.0λ0=1.5,λ1=2.0:损失权重
  • q qq:IoU标签,只监督高质量正样本

六、核心代码(PyTorch可直接跑)

# ==============================# Varifocal Loss 核心实现# ==============================defvarifocal_loss(pred,target,alpha=0.75,gamma=2.0):''' pred: [N, C] 预测IACS target: [N, C] IACS标签 '''weight=torch.pow(pred,gamma)# 负样本lossneg_loss=-alpha*weight*torch.log(1-pred+1e-6)# 正样本losspos_inds=target>0pos_pred=pred[pos_inds]pos_target=target[pos_inds]pos_loss=-pos_target*(pos_target*torch.log(pos_pred+1e-6)+(1-pos_target)*torch.log(1-pos_pred+1e-6))loss=(pos_loss.sum()+neg_loss.sum())/(pos_inds.sum()+1)returnloss# ==============================# 星形可变形卷积采样(简化)# ==============================defstar_sample_offsets(ltrb):# ltrb: [B, N, 4] left, top, right, bottoml,t,r,b=ltrb.unbind(-1)x,y=0,0# 9个点points=[(x,y),(x-l,y),(x+r,y),(x,y-t),(x,y+b),(x-l,y-t),(x+r,y-t),(x-l,y+b),(x+r,y+b)]offsets=torch.stack([torch.stack(p,dim=-1)forpinpoints],dim=-2)returnoffsets.flatten(-2)

七、实验图表:全覆盖原文关键结果

表格1(原文Table1):Oracle实验证明IACS最强

设置AP说明
FCOS+ATSS39.2基线
+GT centerness41.1小涨
+GT IoU替代centerness43.5有限
+GT 框56.1极强
+GT IoU作为分类得分(IACS)74.7上限爆炸

分析
IACS是检测排序的理论最优解,远超centerness、IoU分支等方案。


表格2(原文Table2):Varifocal Loss超参消融

γ \gammaγα \alphaαAPAP50
1.00.541.259.2
1.50.7541.559.7
2.00.7541.659.5
2.51.2541.559.4

分析
γ = 2 , α = 0.75 \gamma=2,\alpha=0.75γ=2,α=0.75为最优,通用且稳定。


表格3(原文Table3):模块逐个涨点

VFLStarRefineAP
39.0
40.1
40.7
41.6
FCOS+ATSS--39.2

分析
三个模块缺一不可,累计+2.4AP,远超基线。


表格4(原文Table4):COCO test-dev 主流对比

模型BackboneAP
ATSSR-10143.6
VFNetR-10146.0
ATSSR-101-DCN46.3
VFNetR-101-DCN49.2
VFNet-X-1200R2Net-101-DCN55.1

分析

  • 平均**+2.0AP+**
  • 单模型单尺度55.1AP,达到SOTA

表格5(原文Table5):VFL强于FL/GFL

模型FLGFLVFL
RetinaNet36.537.337.4
RepPoints38.339.239.7
ATSS39.339.840.2
VFNet40.041.141.6

分析
Varifocal Loss通用涨点,在各种稠密检测器上都强于FL、GFL。


在 COCO 测试集 - 开发版上应用我们最佳模型的检测示例。可视化时的分数阈值为 0.3。

VFNet检测效果示例
各类别、遮挡、小物体都定位准、得分合理。

图片分析
IACS让NMS更合理,少漏检、少误检。


八、全文总结(最精炼)

  1. 痛点:分类得分与定位质量不一致,NMS排序差
  2. 方案IACS合一表示“类别+定位质量”
  3. 训练Varifocal Loss不对称加权,重视高质量正样本
  4. 特征星形9点可变形特征,高效编码框结构
  5. 精炼:两级框回归,定位更准
  6. 效果+2AP+、结构简洁、扔掉centerness、SOTA

http://www.jsqmd.com/news/716614/

相关文章:

  • 5分钟掌握城通网盘直连解析工具:告别龟速下载的终极指南
  • 2026 重磅解读:云智科技创始人如何用战略视野改写行业规则 - 品牌推荐
  • 2026年4月全球留学生求职专家机构推荐:五大口碑服务评测对比领先海外归国身份焦虑 - 品牌推荐
  • STM32 HAL库SPI实战:从阻塞收发到DMA中断,三种模式到底怎么选?
  • 软考高项-案例万金油(进度成本纠偏)
  • LeetCode HOT100 - 单词搜索
  • 2026年当下,丰台虫草收购如何避坑选对商家? - 2026年企业推荐榜
  • 别再只用加减乘除了!LabVIEW图像运算的3个高级玩法:动态监测、背景消除与图像融合
  • 量子图态生成:自适应融合网络与优化策略
  • 2026年近期中亚盐酸泵采购指南:宣城实力厂家深度解析 - 2026年企业推荐榜
  • HS2-HF_Patch终极指南:一键解锁完整游戏体验的增强补丁
  • 原神60帧限制破解指南:如何安全解锁高帧率游戏体验
  • Go语言的runtime.GOMAXPROCS环境配置
  • ARM CoreSight ETM11调试技术详解与应用实践
  • 四川空调清洗服务迎“健康升级”,2026年第二季度如何选择专业团队? - 2026年企业推荐榜
  • 2025-2026年美国求职机构评测:五款口碑产品推荐评价顶尖职场新人薪资谈判技巧缺失 - 品牌推荐
  • 如何选择留学生求职专家机构?2026年4月推荐评测口碑对比知名服务领先应届生缺乏实习竞争力 - 品牌推荐
  • CSS怎样调整弹性项目排列顺序_使用order属性轻松控制DOM显示顺序
  • 持续集成实战指南
  • TPFanCtrl2:ThinkPad双风扇嵌入式控制器直连温控架构解析与128级精准调速优化方案
  • 5分钟学会fre:ac:完全免费的开源音频转换工具终极指南
  • Outfit字体完全指南:免费开源几何无衬线字体的9种字重完整使用手册
  • 2026年4月郑州高端PCB金刚石材料供应商深度**与推荐 - 2026年企业推荐榜
  • 2026年4月济南铝镁锰弯弧实力厂商盘点,美信铝业凭何成为口碑之选? - 2026年企业推荐榜
  • 开源网盘直链下载解决方案:LinkSwift 技术架构与实战指南
  • Day07-词嵌入层解释
  • MediaCreationTool.bat:让Windows系统安装变得前所未有的简单
  • 嵌入式内存管理避坑指南:从GD32F470的TCMSRAM设计,聊聊多块非连续SRAM的实战分配策略
  • 别再让ECharts折线图标签挤成一团了!手把手教你实现标签上下错落显示(附完整代码)
  • 2026年4月新发布:江西规模化养殖场污水处理系统优选与联系指南 - 2026年企业推荐榜