当前位置: 首页 > news >正文

VMamba: Visual State Space Model学习笔记 - 实践

摘要

背景

设计计算高效的网络架构是计算机视觉的持续需求

方法

将状态空间语言模型Mamba改编为具有线性时间复杂度的视觉主干网络Vmamba
核心是带有2D选择性扫描模块的可视状态空间(VSS)块的堆栈,凭借四条扫描线路的遍历,SS2D弥合了一维选择性扫描的有序性质与二维视觉数据的非循序结构之间的差距,并有助于从各种来源和角度收集上下文信息,基于VSS块开发了VMamba架构,并通过一系列架构和达成增强加速他们

贡献

广泛的实验证明了VMamba在各种视觉感知任务的出色表现,凸显了与现有基准模型相比卓越的输入拓展效率

引言

背景

视觉表示学习仍然是计算机视觉领域的基础研究领域,为表示视觉素材中复杂模式,主干网络的两大类分别是CNN和ViT,ViT集成了自注意力机制,在大规模数据上通常表现出优越的学习能力,

挑战

然而自注意力的二次复杂性与标记的数量不同在涉及大空间分辨率的下游任务中施加了大量计算开销。

研究现状

人们做出了重大努力提高注意力计算效率,然而现有办法要么限制了有效感受野大小,要么在各种任务中表现明显下降,这促使开发一种既保留自注意力机制的固有优势,即全局感受野和动态加权参数。
在NLP领域的状态空间模型Mamba以成为有前途的线性复杂度的长序列建模方法,

提出新方法

基于此推出了Vmamba,这是一种视觉骨干网络,集成了SSM块以实现高效的视觉表示学习。核心算法是并行选择性扫描操作,本质上是处理一维顺序数据而设计,为解决该问题提出了二维选择性扫描(SS2D),设置一种专为空间域遍历的四向扫描机制。SS2D通过图像patch仅依据沿其相应扫描路径计算的压缩隐藏状态获取上下文知识,从将计算复杂度从二次降至线性。
![[Pasted image 20251018104757.png]]

贡献

提出了VMamba,一种基于SSM的视觉骨干,具有线性时间复杂度的视觉表示学习
引入SS2D桥接一维阵列扫描和二维平面遍历,从而能够扩展选择性SSM处理视觉数据
VMamba在各种视觉任务中取得了良好的性能,并表现出对输入序列长度的显著适应性,表明计算复杂度的线性增长

方法部分

对于给定输入I ∈ R H × W × 3 I \in \mathbb{R}^{H \times W \times 3}IRH×W×3
先划分成H / 4 × W / 4 H/4 \times W/4H/4×W/4的二维特征图,再通过含有一个下采样层(第一阶段除外)和若干个视觉状态空间(VSS)块,构建不同分辨率的分层表示。
具体来说,每个VSS块删除了乘法分支,并替换为了SS2D模块,如图d所示,改进的VSS块由一个具有两个残差模块的网络分枝组成。
![[Pasted image 20251018105500.png]]

视觉数据的2D选择性扫描(SS2D)

![[Pasted image 20251018110333.png]]

SS2D包括三个步骤,交叉扫描,选择性扫描和交叉合并
交叉扫描:将输入patch沿着四个不同的遍历路径展开序列
选择性扫描:通过选择性扫描并行处理每个patch序列
交叉合并:将生成的序列重塑并合并形成输出映射

SS2D允许图像中每个像素跨不同方向整合其他来自其他所有像素的信息,有助于在2D空间建立全局感受野

实验

图像分类

![[Pasted image 20251018152736.png]]

在ImageNet-1K上评估了图像分类的性能
,VMamba 在小型和基本规模上都保持了其性能优势。例如,VMamba-B 的 top-1 精度超过 83.9% DeiT-B 2.1% ,超越 0.4% Swin-B。就是在FLOP中,VMamba-T达到了82.6%的Top-1,优于 DeiT-S 2.8% 和 1.3% Swin-T。值得注意的
在计算效率上,Vmamba-T实现了 1,686 张图像/秒的吞吐量,这要么优于最先进的方法,要么可与最先进的方法相媲美。 VMamba-S 和 VMamba-B 延续了这一优势,分别搭建 877 了映像吞吐量和 646 映像吞吐量。与基于SSM的模型相比,VMamba-T 的吞吐量 1.47× 高于 S4ND-Conv-T 和 1.08× Vim-S,同时分别保持了明显的性能领先于 0.4% 2.1% 这些模型。

下游任务

![[Pasted image 20251018153426.png]]

在目标检测上,通过12个epoch的微调后,VMamba-T/S/B 的目标检测 mAP 分别优于 47.3%/48.7%/49.2% mAP 的 4.6%/3.9%/2.3% Swin-T/S/B 和 mAP 的 3.1%/3.3%/2.2% ConvNeXt-T/S/B。VMamba-T/S/B 实现的实例分割 mAP 分别超过 3.4%/2.8%/ Swin-T/S/B 1.8 % mAP 和 ConvNeXt-T/S/B 2.6%/1.9%/ 1.4 % mAP。此外,VMamba 的优势在使用多尺度训练的 36 个 epoch 微调计划中得以延续,凸显了其在需要密集预测的下游任务中的强大潜力。
在语义分割上,VMamba-T 在单尺度 (SS) 设置中构建了 3.4% 高于 Swin-T 和 1.9% ConvNeXt-T 的 mIoU,并且在多尺度 (MS) 输入中优势仍然存在。对于小型和基础级别的模型,VMamba-S/B 在 SS 设置中优于 2.6% NAT-S 2.5% /B[25] / mIoU,在 MS 设置中优于 1.7% / 1.9% mIoU。

结论

方法

一种使用状态空间模型构建的高效视觉骨干模型,将选择性SSM的优势集成到了视觉数据处理中,利用SS2D模块弥合了有序1D扫描和非顺序2D遍历之间的差距。就是提出了VMmaba,这

效果

在线性时间复杂度下VMamba在大分辨率输入的下游任务中有优势

局限

现有预训练方法与VMamba等基于SSM架构的兼容性有待探索
尚未大规模探索VMamba架构并进行细粒度的超参数搜索
尚未探索如何弥合SS2D与通用任务扫描模式的差距

http://www.jsqmd.com/news/360233/

相关文章:

  • C语言笔记归纳15:字符串函数 - 详解
  • Python函数参数与作用域生存指南
  • buuctf--npuctf_2020_easyheap
  • 2026年靠谱的东莞便携式接触角测量仪/一键式接触角测量仪厂家热销推荐 - 品牌宣传支持者
  • 2026年倍克朗口碑如何详细解读,江苏泳池漆品牌靠谱排名 - mypinpai
  • 完整教程:多智能体框架调研:10个主流 AI Agent 框架
  • 2026年知名的厂房节能改造政府补贴政策/厂房节能改造怎么选直销厂家价格参考 - 品牌宣传支持者
  • 2026年大型乘务管理学校费用,上海优质学校排名 - 工业推荐榜
  • 2026后期制作精良的宣传片制作公司推荐 - 品牌排行榜
  • 01 环境配置
  • 上海高性价比焊工技术培训学校怎么选,为你支招 - myqiye
  • 2026能根据客户需求定制方案的宣传片制作公司推荐 - 品牌排行榜
  • 分析2026年值得推荐的燃气锅炉制造商,远大锅炉优势尽显 - 工业品牌热点
  • 26寒假S基础集训
  • 聊聊广州比较不错的CE认证企业,专业CE认证机构推荐 - 工业设备
  • 2026年口碑好的环保水性漆/水性漆实力工厂参考哪家靠谱(高评价) - 品牌宣传支持者
  • 2026小容量电炖盅品牌推荐:高口碑款选购参考 - 品牌排行榜
  • 聊聊旅游租车选哪家好,杭州佳程汽车服务性价比超突出 - 工业品网
  • llms.txt 帮助大模型理解站点的协议
  • 2026工业级三维扫描仪哪个牌子好?十大品牌综合评测与选购指南 - 匠言榜单
  • 2026年评价高的不锈钢切割圆锯机床/高硬金属加工圆锯机床厂家选择参考建议 - 品牌宣传支持者
  • 2026年热门的全自动精密倒角机/双头精密倒角机厂家选购参考汇总 - 品牌宣传支持者
  • 2026婴儿辅食电炖锅哪个牌子好?宝妈实测口碑推荐 - 品牌排行榜
  • 2026空气炸锅哪个品牌质量比较好?真实体验与品牌解析 - 品牌排行榜
  • PHP 应用遭遇 DDoS 攻击时会发生什么 从入门到进阶的防护指南
  • 2026宝宝辅食锅煮粥哪个牌子好?新手妈妈实用攻略 - 品牌排行榜
  • 2026空气炸锅哪个牌子好用?高口碑品牌推荐 - 品牌排行榜
  • 2026上海广告位公司推荐:聚焦商圈户外LED广告服务 - 品牌排行榜
  • 2026上海地标广告位公司哪家专业?行业实力机构推荐 - 品牌排行榜
  • 2026上海户外广告位哪家好?核心商圈资源推荐 - 品牌排行榜