当前位置: 首页 > news >正文

深度学习进阶(十二)可变形池化 deformable RS RoI Pooling

在上一篇中,我们已经得出了一个非常关键的结论:

无论是 RoI Align 还是 PS RoI Pooling,本质上都在“改进采样方式”,但它们的采样规则仍然是“人为设计的”,也就是固定的。

因此我们提出了新的想法:

能不能让“采样位置”本身,变成可以学习的?

这种想法的实现结果之一就是 Deformable PS RoI Pooling,可以直译为可变形的位置敏感候选框池化

同样显而易见,它的改进就在这个“可变形”上。

1. Deformable PS RoI Pooling 的提出和思想

Deformable PS RoI Pooling 起源于 17 年的论文:Deformable Convolutional Networks
实际上,这篇论文提出了两大核心创新:可变形卷积和可变形池化。
我们本篇先引入可变形池化内容,之后再以此为基础展开可变形卷积的逻辑。

而总结来说,Deformable PS RoI Pooling 的核心思想是:

在 PS RoI Pooling 的基础上,为每一个 bin 引入可学习的空间偏移。

不再过多铺垫,我们直接展开它的具体传播过程来理解它的逻辑。

2. 偏移学习

我们知道,在标准的 PS RoI Pooling 中,每个 bin 的采样点是固定的。
但在 Deformable PS RoI Pooling 中,引入了偏移的概念:偏移量不是作用在边界坐标上的,而是作用在每个采样点上的
比如 \((x,y)\) 是 bin 内的某个采样位置,其引入偏移后就变成了:

\[(x + \Delta x_{ij}, y + \Delta y_{ij}) \]

\((\Delta x_{ij}, \Delta y_{ij})\) 就是这个 bin 的偏移。
一个 bin 通常只用一组偏移(Δx, Δy),它是整个 bin 里所有采样点的“统一偏移”。

这里的关键是:\(\Delta x, \Delta y\) 不是人为设定的,而是通过网络学习得到的。

显然,为了得到这些偏移,模型就要有新的结构变化:

增加一个分支,作用是在特征图层面预测偏移,再通过 RoI 内的池化操作,为每个 bin 聚合出对应的偏移量。

其具体逻辑如下:
image.png
如果你看了 DCNv1 的原论文,可能会发现一些不同设计,在下一部分会展开解释。
如图所示,假设有 \(k \times k\) 个 bin ,那么偏移分支输出的特征图尺寸就是:

\[H \times W \times (2k^2) \]

其中,每个 bin 对应 2 个通道(Δx, Δy)。
具体拆开,我们为偏移特征图的每个通道设定的语义如下:

通道编号 含义
0 bin(0,0) 的 Δx
1 bin(0,0) 的 Δy
2 bin(0,1) 的 Δx
3 bin(0,1) 的 Δy
... ...

这种语义同样是通过结构设计嵌入,在反向传播中不断学习得到的。

现在,我们有了两类特征图:位置敏感特征图和偏移特征图。
下一个问题是:

我们要如何聚合两类特征图的信息得到注入偏移信息的 bin ?

3. 为 bin 注入偏移信息

在这部分,我们首先要强调的是:bin 的采样仍然是在位置敏感特征图中进行,偏移特征图只是为了给不同的 bin 提供偏移信息。
而这部分的详细逻辑可以总结如下:

对于每个 bin ,在偏移特征图中的对应通道的对应区域进行平均池化得到两个方向的偏移量,再将偏移量和该 bin 在位置敏感特征图中的所有采样点相加,得到最终采样点坐标。

image.png

如图所示,这样有一点需要强调:在原论文中,bin 在不同类别的偏移量是单独预测的,同一个 bin 内的偏移在不同类别间不共享,在上一步的通道尺度设计也有所不同,图中是现代改进后的主流结构。

在这里,同一个 bin 的 \((\Delta x, \Delta y)\),在所有类别上是共享的。
这是因为几何结构的调整,通常和类别无关
比如一个 RoI 框住的是“人”,他可能左偏一点、头歪一点或者嘴张开一点,换成别的类别也一样,这些都是结构偏移,而不是类别差异。
其次,也是因为类别级的偏移学习需要更多数据,而且需要学习更多参数。

由此,我们就在采样位置上加入了可学习的偏移量,让采样变得更灵活,更加“自适应”。
但一个新的问题接踵而至:

学习得到的采样点不是整数怎么办?

4. 可变形池化的插值问题

这是一个比看起来起来要严重的问题。当采样位置变成:

\[(x + \Delta x, y + \Delta y) \]

它通常不再是整数坐标。
因此必须引入一个机制,对非整数位置进行特征读取。

而这里的处理方式与 RoI Align 类似:

使用双线性插值,从周围点估计该位置的值。

image.png
不难理解,但要注意一点: 这里的插值不是为了“对齐”,而是为了“支持可变采样”。

简单展开一下,你可能会感觉这里像是把 PS RoI Pooling 和 RoI Align 的逻辑加起来了。
但实际上,我们在上一篇末尾就提到了:PS Pooling 和 Align 通常不会一起使用。
在这里使用插值只是为了让可变形池化的计算可以进行,而不是为了实现 RoI Align 的几何对齐效果,它们只是都用了双线性插值,仅此而已。

到这里,我们就梳理完了所有的改进点,之后再对每个 bin 中采样点的特征值进行池化,就可以得到最终输出,用于后续操作。

这便是可变形池化,他实现了可学习的采样偏移,让池化可以不再按照“严丝合缝的固定方格”进行采样,而是可以灵活的进行偏移。

一个想法是:

既然都是采样,池化的采样可以偏移,那更基础的卷积本身为什么不可以呢?

这便是下一篇的内容:可变形卷积 DCN .

http://www.jsqmd.com/news/709802/

相关文章:

  • LyricsX完全指南:如何在Mac上实现完美的桌面歌词显示体验
  • AI模型加载即逃逸?20年安全架构师首次公开:基于Docker BuildKit的编译时静态沙箱验证技术
  • 04-10-07 证据评估 - 学习笔记
  • AI流量新红利|2026杭州本地GEO优化公司推荐 - 品牌评测官
  • VS Code 远程容器开发卡顿?5个被90%开发者忽略的 devcontainer.json 隐藏参数,让构建速度飙升400%
  • AMD Ryzen处理器终极调试指南:SMUDebugTool完全教程
  • 常州环之宇再生资源:常州废品回收公司哪家好 - LYL仔仔
  • Pearcleaner终极指南:如何彻底清理macOS应用残留文件
  • RAG(五)rag系统的评估方法
  • 第39篇:目标检测技术入门——让AI不仅“看到”更能“定位”(概念入门)
  • 2026熙琦科技分享跨境迷你打印设备选购实用干货全指南 - 热敏感科技蜂
  • 奉贤南桥女性身体调理品牌首选:国家认证二十余年老店明星探店价格透明 - 速递信息
  • 高互动投票制作平台,支持音视频+多客户管理系统
  • 原创小说如何利用AI工具转漫剧,2026全流程实操指南
  • Engine core proc EngineCore_DP0 died unexpectedly, shutting down client.
  • 【高频交易引擎上线前必做的11项硬核校验】:纳秒级时间戳校准、UDP丢包补偿、FPGA协处理器通信验证全清单
  • Cursor Pro破解指南:3步解锁永久免费AI编程助手高效方案
  • 新鲜出炉!2026玻璃钢罐厂家推荐排行 专业评测榜 化工/环保/市政 - 极欧测评
  • 天津昊力复合钢管:北京可靠的水涂塑复合钢管制造公司 - LYL仔仔
  • 2026 年贵州地材工程服务商优选:环氧地坪与 PVC 地板专业解决方案 - 深度智识库
  • GHelper:解锁华硕笔记本终极性能的轻量级开源解决方案
  • 哪个牌子的蛋白粉最好 2026选购指南避坑不踩雷 - 资讯焦点
  • 35岁不是终点:技术人的第二增长曲线在哪里?
  • m3u8下载工具:让流媒体视频永久保存的技术方案
  • Hostinger主机值得买吗 - 麦麦唛
  • 别再瞎调参数了!手把手教你用Hugging Face Transformers设置大模型temperature、top_p等核心参数
  • 【限时解密】某德系Tier1禁用的3类C语言构造——BMS功能安全审计报告原始片段首次公开(含TUV南德签发意见书节选)
  • 厦门猎头公司前十名推荐!哪家猎头公司做得最好? - 榜单推荐
  • 2026年河南无塔供水器与二次加压设备深度横评:豫达供水智能节能方案对标指南 - 精选优质企业推荐官
  • 2026年河南无塔供水与地埋式箱泵一体化设备选购指南:从官方渠道到深度横评 - 精选优质企业推荐官