当前位置: 首页 > news >正文

【RT-DETR论文阅读】:首个实时端到端Transformer检测器,DETR正式超越YOLO

论文信息

  • 标题:DETRs Beat YOLOs on Real-time Object Detection
  • 会议:CVPR 2024
  • 单位:百度、北京大学
  • 代码:github.com/lyuwenyu/RT-DETR
  • 论文:https://arxiv.org/pdf/2304.08069.pdf

一、前言

长久以来,实时检测领域一直是YOLO家族的天下,但它们都绕不开一个“拖油瓶”——NMS
NMS不仅拖慢速度,还严重影响精度稳定性。

DETR虽然完美去掉NMS,却因为速度太慢、计算太贵,从来进不了实时赛道。

直到百度提出RT-DETR
第一个真正做到实时、端到端、无NMS、精度速度双杀YOLO的Transformer检测器。

  • RT-DETR-R50:53.1% AP,108 FPS
  • RT-DETR-R101:54.3% AP,74 FPS
  • 不用NMS、不用Anchor、训练更快、部署更稳

一句话总结:
RT-DETR = DETR的优雅 + YOLO的速度 + 更高的精度。

与之前那些先进的实时物体检测器相比,我们的 RT-DETR 实现了最先进的性能。

二、核心动机:NMS是实时检测的毒瘤

YOLO之所以快不上去,根本原因就是NMS后处理

NMS的两大原罪:

  1. 速度不稳定:框越多越慢,耗时不可控
  2. 精度不稳定:阈值敏感,调参痛苦

不同置信度阈值下保留的框数量。

阈值越低,框越多,NMS越慢。

图片分析:
NMS执行时间完全不可控,成为实时检测的巨大瓶颈。


表格1(来自原文Table 1)

IoU阈值APNMS耗时(ms)置信度阈值APNMS耗时(ms)
0.552.12.240.00152.92.36
0.652.62.290.0152.41.73
0.852.82.460.0551.21.06

表格分析:
NMS耗时随阈值剧烈波动,精度也跟着跳变,工业部署极其不友好。


三、RT-DETR总览

RT-DETR 的概述。我们将骨干网络的最后三个阶段的特征输入到编码器中。高效的混合编码器通过基于注意力的同尺度特征交互(AIFI)和基于卷积神经网络的跨尺度特征融合(CCFF)将多尺度特征转换为一系列图像特征。然后,不确定性最小化查询选择会选取固定数量的编码器特征作为解码器的初始对象查询。最后,带有辅助预测头的解码器会通过迭代优化对象查询来生成类别和框。

结构:
Backbone →高效混合编码器(AIFI+CCFF)最小不确定性查询选择→ 解码器 → 输出

两大革命性创新:

  1. 高效混合编码器:把多尺度特征计算量砍半
  2. 最小不确定性查询选择:给解码器送最高质量的查询

四、创新1:高效混合编码器(速度核心)

DETR编码器一直是计算瓶颈,因为多尺度特征序列太长。

RT-DETR直接解耦

  • AIFI(注意力 intra-scale):只在最高层S5做自注意力
  • CCFF(CNN cross-scale):用轻量CNN做跨尺度融合

公式如下:
Q=K=V=Flatten(S5) \mathcal{Q}=\mathcal{K}=\mathcal{V}=Flatten(\mathcal{S}_5)Q=K=V=Flatten(S5)
F5=Reshape(AIFI(Q,K,V)) \mathcal{F}_5=Reshape(AIFI(\mathcal{Q},\mathcal{K},\mathcal{V}))F5=Reshape(AIFI(Q,K,V))
O=CCFF({S3,S4,F5}) \mathcal{O}=CCFF(\{\mathcal{S}_3,\mathcal{S}_4,\mathcal{F}_5\})O=CCFF({S3,S4,F5})

符号解释:

  • S3,S4,S5\mathcal{S}_3,\mathcal{S}_4,\mathcal{S}_5S3,S4,S5:Backbone输出的三层特征
  • AIFIAIFIAIFI:单尺度注意力交互
  • CCFFCCFFCCFF:卷积跨尺度融合
  • Flatten/ReshapeFlatten/ReshapeFlatten/Reshape:展平与恢复形状

通俗解释:
只在语义最深的特征上做注意力,剩下的融合全部用超快CNN,速度直接起飞。


CCFF 中的融合模块。

图片3:CCFF融合块
1×1卷积 + RepBlock + 残差融合,极轻量、极高效。


五、创新2:最小不确定性查询选择(精度核心)

过去的查询选择只看分类分数,不管定位准不准。
RT-DETR提出:分类+定位一起评价

不确定性公式:
U(X^)=∥P(X^)−C(X^)∥ \mathcal{U}(\hat{\mathcal{X}})=\| \mathcal{P}(\hat{\mathcal{X}})-\mathcal{C}(\hat{\mathcal{X}})\|U(X^)=P(X^)C(X^)

符号解释:

  • U\mathcal{U}U:不确定性
  • P\mathcal{P}P:定位预测分布
  • C\mathcal{C}C:分类预测分布
  • X^\hat{\mathcal{X}}X^:编码器特征

通俗解释:
只选“分类置信度高定位IoU高”的特征做查询。


所选编码器特征的分类结果及交并比得分。紫色和绿色的点分别代表通过不确定性最小化查询选择训练得到的模型所选出的特征以及通过常规查询选择所选出的特征。

图片4:查询质量对比
紫色(RT-DETR)大量集中在右上角,代表分类准+定位准

图片分析:
最小不确定性策略选出的查询质量远超普通方法。


六、创新3:不用重训练,动态调节速度

RT-DETR可以直接删减解码器层来提速,精度掉得极少。

  • 6层解码器:最高精度
  • 5层解码器:几乎不掉点
  • 4层解码器:速度更快

真正工业级友好:一机多速,不用重训。


七、核心代码(PyTorch风格)

# ==============================# RT-DETR 核心:高效混合编码器# ==============================classHybridEncoder(nn.Module):def__init__(self,in_channels,hidden_dim,num_layers=1):super().__init__()# AIFI:只对 S5 做注意力self.aifi=TransformerEncoderLayer(d_model=hidden_dim,nhead=8)# CCFF:跨尺度卷积融合self.ccff=CCFFModule(in_channels,hidden_dim)defforward(self,feats):# feats: (S3, S4, S5)s3,s4,s5=feats# AIFI 只处理 S5s5_flat=s5.flatten(2).permute(2,0,1)s5_enhanced=self.aifi(s5_flat)s5_enhanced=s5_enhanced.permute(1,2,0).view_as(s5)# CCFF 跨尺度融合out=self.ccff([s3,s4,s5_enhanced])returnout# ==============================# 最小不确定性查询选择# ==============================classMinUncertaintyQuerySelection(nn.Module):defforward(self,feats,cls_scores,box_preds):# 计算不确定性:分类与定位差异uncertainty=torch.abs(cls_scores-box_preds.sigmoid())# 选不确定性最小的 Top-K 特征_,indices=uncertainty.topk(300,dim=1,largest=False)returnfeats.gather(1,indices),box_preds.gather(1,indices)

八、实验结果(最强表格合集)

8.1 实时检测器大比拼

表格2(来自原文Table 2)

模型BackboneAPFPS
YOLOv5-L-49.054
YOLOv8-L-52.971
RT-DETR-R50R5053.1108
RT-DETR-R101R10154.374

结论:
RT-DETR精度、速度、参数全面超越所有YOLO L/X型号。


8.2 编码器消融实验

表格3(来自原文Table 3)

编码器变种AP延迟(ms)
A43.07.2
B44.911.1
C45.613.3
D46.412.2
Ds546.87.9
E(RT-DETR)47.99.3

结论:
只对S5做注意力+CNN融合,速度提升35%,精度还涨。


8.3 查询选择消融

表格4(来自原文Table 4)

查询策略AP高分特征占比
普通47.90.35%
最小不确定性48.70.82%

结论:
高质量查询直接带来**+0.8 AP**。


8.4 解码器动态速度调节

表格5(来自原文Table 5)

解码器层数AP延迟(ms)
6层53.19.3
5层53.08.8
4层52.78.3
2层51.67.5

结论:
从6层减到5层,精度几乎不掉,速度明显更快


九、全文总结

RT-DETR是首个真正实时的端到端Transformer检测器,用极简设计解决三大痛点:

  1. 去掉NMS,推理稳定、速度可预测
  2. 高效混合编码器,Transformer实时化
  3. 最小不确定性查询,大幅提升精度
  4. 动态解码器,不用重训自由调速

最终:
RT-DETR在速度、精度、部署性上全面超越YOLO,
正式宣告:DETR时代降临实时检测!


http://www.jsqmd.com/news/760112/

相关文章:

  • 有哪些从零构建Claude Code式harness的教程和开源项目?
  • Dify低代码平台与企业系统集成(含ERP/CRM/钉钉/飞书)——内部技术白皮书首次公开
  • 告别全局污染:用nvm-windows管理多版本Node.js(附14.21.3安装与cnpm7.1.0配置)
  • 3个核心技术点:深入解析qmcdump的QQ音乐文件解密实现
  • analyze languages without AI
  • 【Finance】Profit
  • 第3课:网页爬虫|F12抓包【打开网站的“透视眼”】
  • AI Agent完成率低至40%?老王揭秘10步规划,让你的Agent稳定率飙升至80%!
  • 【Excel提效 No.044】一句话搞定数据分列按固定宽度拆分
  • 阴阳师OAS脚本终极指南:3步实现游戏自动化,告别重复劳动
  • 【AI模型】快速选型建议
  • 深搜练习(N皇后)(10)
  • 新政下的绿电直连项目经济性分析:模式创新与价值重构
  • 为内部AI助手工具配置安全的API访问控制与审计日志
  • 避坑指南:解决ORB-SLAM2+octomap建图时点云倾斜和rviz警告问题
  • 企业如何利用Taotoken构建稳定低延迟的AI视频处理管线
  • AUTOSAR Fee 模块深度解析:FeeBlock 与 Sector 数据结构勘误、工程实现与掉电保护实战
  • TrguiNG终极指南:5分钟打造高效Transmission远程管理界面
  • 雀魂牌谱屋:免费开源的麻将牌谱数据分析终极指南
  • 【Excel提效 No.045】一句话搞定数据分组小计自动生成
  • CNSH-QFLOW-WUXING-CORE v1.1:基于易经哲学的量子启发语义流场计算框架
  • 从0到1掌握DeerFlow:字节跳动开源AI Agent框架,轻松构建企业级智能体平台!
  • ChatGPT横空出世!大模型浪潮席卷全球,国产模型崛起,你该用哪个?深度解析大模型的一切!
  • QuantVLA:无需训练的视觉-语言-动作模型量化技术
  • Nemotron-Flash:低延迟LLM推理的混合小型语言模型架构
  • STM32基础驱动系列-DS18B20
  • 高效便捷!macOS 这 5 款命令行工具免费易装,让操作更高效
  • Claude Code 终于能在手机上跑了:10k Star 开源 UI,浏览器一进就有
  • Cortex-M55 CTI架构与调试技术详解
  • 英伟达:离线策略蒸馏Lightning OPD