【第48篇】MaxViT:多轴视觉转换器
文章目录
- 摘要
- 1 简介
- 2 相关工作
- 3 方法
-
- 3.1 注意
- 3.2 多轴注意力
- 3.3 架构变体
- 4 实验
-
- 4.1 ImageNet-1K上的图像分类
- 4.2 目标检测和实例分割
- 4.3 形象审美评价。
- 4.4 图像生成
- 4.5 消融研究。
- 5 讨论与结论
摘要
Transformers 最近在计算机视觉界引起了广泛关注。然而,自注意力机制在图像大小方面缺乏可扩展性,这限制了它们在最先进的视觉骨干中的广泛采用。在本文中,我们介绍了一种高效且可扩展的注意力模型,我们称之为多轴注意力,它由两个方面组成:阻塞的局部注意力和扩张的全局注意力。这些设计选择允许在任意输入分辨率上进行全局-局部空间交互,仅具有线性复杂度。我们还通过将我们提出的注意力模型与卷积有效地融合在一起,提出了一个新的架构元素,并相应地提出了一个简单的分层视觉骨干,称为 MaxVi