当前位置：首页 > news >正文

从MobileNet到MobileViT：苹果这篇论文如何用‘卷积思维’重新设计Transformer？

news 2026/5/5 2:50:21

MobileViT：用卷积思维重构视觉Transformer的轻量化革命

1. 移动端视觉模型的演进困境

2017年，当Howard等人提出MobileNetV1时，可能没想到深度可分离卷积会成为移动端CNN的标配。这种将标准卷积分解为深度卷积和点卷积的巧妙设计，使得模型参数量直接降为原来的1/8到1/9。随后的MobileNetV2引入倒残差结构，MobileNetV3结合神经架构搜索，将轻量化CNN推向了新的高度。

然而，这些模型始终面临一个根本性限制：局部感受野。传统CNN通过堆叠卷积层逐步扩大感受野，但要想覆盖整个图像需要极深的网络，这与移动端设备的算力限制形成尖锐矛盾。2020年，Vision Transformer(ViT)的横空出世带来了全局建模能力，但其庞大的计算开销（比如DeiT-base需要86M参数）让移动开发者望而却步。

轻量化CNN与ViT的优缺点形成鲜明对比：

特性	CNN优势	ViT优势
归纳偏置	空间局部性利于快速收敛	无偏置更具泛化潜力
感受野	局部受限需深层堆叠	单层即可全局建模
参数效率	结构精简参数少	需要大量注意力头
训练友好度	基础数据增强即可训练	需CutMix等复杂增强

核心矛盾点在于：能否在保持CNN参数效率的前提下，获得ViT的全局建模能力？这正是MobileViT要解决的本质问题。

2. MobileViT的核心创新：Transformer即卷积

苹果研究团队在2021年提出的MobileViT，其革命性在于提出了一个全新视角：将Transformer视为一种特殊的卷积操作。这种思维转换带来了架构设计的突破。

2.1 标准卷积的重新解构

传统卷积实际包含三个隐含操作：

展开(Unfold)：将局部感受野内的像素展开为向量
局部处理(MatMul)：与卷积核进行矩阵乘法
折叠(Fold)：将结果重新组装为特征图

MobileViT的创新在于保留卷积的展开和折叠操作，但将中间的局部矩阵乘法替换为Transformer的全局注意力机制。这种替换不是简单的模块堆砌，而是从计算范式层面重构了信息流动方式。

2.2 MobileViT块详解

让我们拆解一个标准MobileViT块的具体实现：

class MobileViTBlock(nn.Module): def __init__(self, in_channels, out_channels, d_model=96): super().__init__() # 局部特征提取 self.local_rep = nn.Sequential( nn.Conv2d(in_channels, in_channels, 3, padding=1), nn.GELU(), nn.Conv2d(in_channels, d_model, 1) ) # 全局Transformer处理 self.global_rep = TransformerEncoder( dim=d_model, depth=2, heads=4 ) # 特征融合 self.fusion = nn.Conv2d(d_model, out_channels, 1) def forward(self, x): local_feat = self.local_rep(x) # [B,C,H,W]->[B,d,H,W] patches = rearrange(local_feat, 'b d (h ph) (w pw) -> b (ph pw) (h w) d', ph=2, pw=2) global_feat = self.global_rep(patches) # [B,P,N,d] global_feat = rearrange(global_feat, 'b (ph pw) (h w) d -> b d (h ph) (w pw)', ph=2, pw=2, h=H//2) return self.fusion(global_feat) + x

关键设计细节：