当前位置: 首页 > news >正文

【BiFormer】BiFormer: Vision Transformer with Bi-Level Routing Attention 译读笔记

BiFormer: Vision Transformer with Bi-Level Routing Attention

摘要

作为视觉变换器的核心构建模块,注意力机制是一种强大的工具,用于捕获长距离依赖关系。然而,这种强大的功能是有代价的:它会导致巨大的计算负担和沉重的内存占用,因为需要在所有空间位置之间进行成对token交互计算。一系列工作试图通过引入手工制作和 content-agnostic 的稀疏性来缓解这个问题,例如将注意力操作限制在局部窗口、轴向条纹或扩张窗口内。与这些方法不同,本文提出了一种通过双层路由的新型动态稀疏注意力机制,以实现更灵活的内容感知计算分配。具体来说,对于查询,首先在粗粒度区域级别过滤掉无关的键值对,然后在剩余候选区域(即 routed regions)的并集中应用细粒度的 token-to-token 注意力。本文提供了一种简单而有效的双层路由注意力实现方法,该方法利用稀疏性来节省计算和内存,同时仅涉及 GPU 友好的密集矩阵乘法。基于所提出的双层路由注意力机制,一种新的通用视觉transformer,命名为BiFormer,随即提出。由于BiFormer以query adaptive的方式关注相关token的小子集,而不会受到其他无关token的干扰,因此它既具有良好的性能,又具有很高的计算效率,特别是在密集预测任务中。在图像分类、目标检测和语义分割等多个计算机视觉任务上的实验结果验证了本文设计的有效性。代码可在https://github.com/rayleizhu/BiFormer获取。

1 引言

Transformer具有许多适合构建强大的数据驱动模型的特性。首先,它能够捕捉数据中的长距离依赖关系[29_SwinTransformer, 42_Transformer]。其次,它几乎无归纳偏差,因此使模型更加灵活,能够拟合大量数据[15_Vit]。最后但同样重要的是,它具有高度并行性,这有利于大型模型的训练和推理[42_Transformer, 13_BERT, 33_GPT1, 36_DALL·E]。因此,Transformer不仅革新了自然语言处理,还在计算机视觉领域展现了非常promising的进展。

过去两年,计算机视觉领域见证了视觉transformer的爆炸式增长[29_SwinTransformer, 14_CSWinTransformer, 44_PVT, 15_Vit, 1_DETR, 46_CrossFormer]。在这些工作中,一个热门话题是改进核心构建模块,即attention机制。与本质上是一种局部操作的卷积不同,注意力的一个关键特性是全局感受野,这使视觉 Transformer 能够捕获长距离依赖关系[42_Transformer]。然而,这种特性是有代价的:由于注意力机制计算所有空间位置之间的 pairwise token affinity,它具有很高的计算复杂度,并导致巨大的内存占用。

为缓解这一问题,一个有前景的方向是将稀疏注意力[6_Sparse_Transformer]引入视觉 Transformer 中,使得每个查询仅关注一小部分键值对,而不是全部。

http://www.jsqmd.com/news/338287/

相关文章:

  • Linux---进程概念(一)——冯诺依曼体系、操作强大的系统、进程、PCB的概念讲解
  • 食品金属检测机:生产线的最后一道安全哨兵
  • ArduPilot 概述
  • Java中基于角色的访问控制(RBAC)扩展:增加数据权限维度的实践与思考
  • 香港留学中介测评:哪家与港校关系最铁 衔接最顺畅? - 博客湾
  • 2026年评价高的出口变压器公司推荐:SCB12节能型干式电力变压器、S11油浸式铜芯变压器、S13型油浸式电力变压器选择指南 - 优质品牌商家
  • 蘑菇可食用性分类识别_YOLO11分割模型实现与优化_1
  • 大昌华嘉|抗老不烂脸的维A衍生视黄醇亚油酸酯 - 品牌排行榜
  • 香港留学中介测评:哪家文书个性化最强 拒绝模板化? - 博客湾
  • 合肥三十六行 (镇江) 分公司:四大平台领衔 镇江团购代运营增长引擎 - 野榜数据排行
  • 香港留学中介测评:哪家申请细节处理最到位 零疏漏? - 博客湾
  • 2026上海留学中介档次比拼:哪家格调高端实力硬? - 博客湾
  • 拒绝通用AI踩坑!飞算JavaAI,做Java专属“专科医生”,修复不玩虚的
  • 香港留学中介测评:哪家港五录取榜单亮眼实力过硬? - 博客湾
  • 2026 深度测评:9 款公众号排版软件哪个好用?微信编辑器工具对比差异一表懂 - peipei33
  • 为什么前端需要做优化?
  • Java新手救命!飞算JavaAI,告别报错焦虑,从“不会写”到“写规范”
  • 知识图谱的智能跃迁:大模型环境下的架构革命
  • 上海留学中介服务规范标准:哪家流程最清晰不出错? - 博客湾
  • 【51单片机】串口通讯从入门到精通:原理拆解 + 参数详解 + 51 单片机实战指南
  • AI Agent必备干货:MCP与Skill的终极对比,彻底讲清楚,建议收藏!
  • 免费且完全开源的金融平台,金融数据集软件openbb
  • 国内外知名限流孔板生产厂家top3大比拼 - 品牌推荐大师
  • 实力强的广州太赫兹足疗仪哪个机构好
  • AI产品经理破局之道:5大提问框架,让业务经验变AI燃料,建议收藏
  • 微泄漏密封测试仪选购指南与国内品牌排行榜:从真空衰减法到正/负压密封仪 - 品牌推荐大师
  • MCP和FastMCP的使用
  • 上海留学中介学生真实评价:哪家被上海学子夸得最多? - 博客湾
  • 完整教程:为突破上限我果断转用VMware ESXI7.0,使用后感觉ESXI7.0真的很香!(虚拟机使用进级篇)
  • 深入解析:C++的第十三天笔记