ConvNeXt 系列改进:引入 InceptionNeXt 的大核分解思想,将 7×7 卷积拆解为多分支条带卷积
导语:当“大核”成为甜蜜的负担
ConvNeXt 自 2022 年由 Meta AI(FAIR)团队在 CVPR 上发表以来,以纯卷积架构在 ImageNet 上达到 87.8% 的 Top-1 准确率,在 COCO 检测和 ADE20K 分割任务上全面超越 Swin Transformer,成为计算机视觉领域最炙手可热的 Backbone 之一。其标志性设计——7×7 大核深度卷积——在扩大感受野、增强空间建模能力方面功不可没。
然而,当模型从实验室走向生产线时,这个设计却成了一个“甜蜜的负担”。根据 InceptionNeXt 论文团队的测试数据,一个令人惊讶的事实摆在眼前:ConvNeXt-T 与古老的 ResNet-50 拥有相近的 FLOPs,但在 A100 GPU 上的实际训练吞吐量仅为后者的 60%。明明计算量差不多,为什么跑得这么慢?
根本原因在于“内存墙”——大核卷积虽然 FLOPs 不高,但内存访问成本(Memory Access Cost,MAC)却高得离谱。计算受限于内存带宽(Memory-bound),而非 GPU 的计算能力。这就像你拥有一台顶级发动机(GPU 计算单元),却被一条狭窄的道路(内存带宽)卡住了脖子。
好消息是,InceptionNeXt 论文提出了一个优雅的解决方案。2023 年 3 月,来自新加坡国立大学等机构的研究团队提出了 InceptionNeXt 架构,其核心思想是从经典 Inception 网络汲取灵感,将大核深度卷积沿通道维度分解为四个并行分支——小方形卷积核、水平条带卷积、垂直条带卷积和恒等
