当前位置：首页 > news >正文

注意力机制新突破！21种创新融合思路汇总！让技术持续飞跃！

news 来源：原创 2024/9/29 1:17:10

CV和注意力机制都是当下深度学习中不可或缺的技术，而【CV+注意力机制】更是当前学术研究的热点领域之一，这种结合的方法可以使得注意力机制使模型能够捕捉到图像中的关键信息，从而提供更丰富的特征表示，这对于图像分类、目标检测和语义分割等任务至关重要。此外，计算机视觉与注意力机制的结合也可以提高计算效率、提高模型的泛化能力。近年来，无数的研究者们对传统的特征融合方法进行了大量的改进与创新，创造出一系列前沿的特征融合技术。

为了帮助大家全面掌握【CV+注意力机制】的方法并寻找创新点，本文总结了最近两年【CV+注意力机制】相关的21篇顶会顶刊的前沿研究成果，这些论文的文章、来源、论文的代码都整理好了，希望能给各位的学术研究提供新的思考。

需要的同学扫码添加我

回复“注意力机制21”即可全部领取

1、Query-Guided Attention in Vision Transformers for Localizing Objects Using a Single Sketch

方法：

这篇论文研究了基于草图的自然图像中的对象定位问题，旨在利用手绘草图来定位目标图像中所有相同对象的实例。为了解决这一问题，论文提出了以下几个关键方法：

- 草图引导的视觉变换器编码器：与传统的图像编码器不同，该编码器在每个变换器编码块之后使用多头交叉注意力，将草图特征与图像特征融合，从而学习查询条件下的图像特征，实现与查询草图更强的对齐。

- 对象和查询表示的细化：在解码器的输出端，进一步细化对象和草图特征，使得相关对象的表示更接近草图查询，从而提高定位精度。

- 多查询定位：论文还提出了一种可训练的新颖草图融合策略，通过结合多个草图中的互补信息，构建出更完整的对象表示，进而提高定位性能。

- 端到端可训练模型：所提出的模型是端到端可训练的，包括草图引导的视觉变换器编码器、对象和查询表示细化，以及评分函数。

创新点

- 草图引导的视觉变换器编码器：这是论文的核心创新之一，通过在变换器编码块后使用交叉注意力机制，实现了草图信息与图像特征的有效融合，提高了特征对齐的质量。

- 对象特征和查询特征的细化策略：在解码器输出端，通过进一步细化对象特征和草图特征，使得模型能够更精确地定位与草图查询相关的对象。

- 多草图查询融合：论文提出了一种新颖的草图融合策略，能够利用多个草图查询中的互补信息，提高了对象定位的准确性和鲁棒性。

- 跨域定位能力：所提出的模型不仅在训练中见过的对象类别上表现良好，还能泛化到训练中未见过的对象类别，实现了所谓的“开放世界”对象定位。

- 性能提升：与现有的基于草图的对象定位方法相比，所提出的方法在MS-COCO数据集上的定位性能有了显著提升，改进了mAP（平均精度均值）和AP@50（在50%召回率下的精度）等评价指标。

- 定性分析：论文还提供了定性分析，展示了模型在定位遮挡对象以及多实例对象方面的有效性。

2、SwiftFormer:Efficient Additive Attention for Transformer-based Real-time Mobile Vision Applications

方法：

- SwiftFormer提出了一种高效的加性注意力机制（Efficient Additive Attention），用于替代传统的二次方矩阵乘法运算，以降低计算复杂度。

- 该机制通过元素级别的乘法操作来计算自注意力，而不是传统的矩阵乘法，从而显著降低了模型的计算复杂性。

- SwiftFormer的设计允许在网络的所有阶段使用所提出的高效注意力设计，以实现更有效的上下文信息捕获，并达到优越的速度-准确性权衡。

- 作者构建了一系列名为“SwiftFormer”的高效通用分类模型，这些模型利用了所提出的高效加性注意力。

- SwiftFormer的架构基于EfficientFormer，并对其中的局部特征提取和全局上下文编码进行了改进，包括有效的卷积编码器（Conv. Encoder）和SwiftFormer编码器（SwiftFormer Encoder）。

创新点

- 提出了一种新颖的高效加性注意力机制，该机制通过元素级别的乘法操作替代了计算成本高昂的矩阵乘法运算，有效降低了自注意力的计算复杂度。

- 与传统的多头自注意力（MHSA）相比，SwiftFormer的注意力模块在输入token数量上具有线性复杂度，使其能够在网络的所有阶段使用，而不是仅在最后阶段使用。

- SwiftFormer的设计避免了显式的key-value交互，通过简单的线性变换来编码query-key交互，从而学习全局上下文信息，这一点在以往的研究中较少见。

- 通过一致的混合设计，SwiftFormer能够在所有阶段学习一致的全局上下文，这提高了模型性能，并使其对高分辨率图像更具泛化性和可扩展性。

- SwiftFormer在保持与MobileNet相当的低延迟的同时，实现了更高的准确率，特别是在移动设备上的实时视觉应用中表现出色。

需要的同学扫码添加我

回复“注意力机制21”即可全部领取

3、BiFormer: Vision Transformer with Bi-Level Routing Attention

方法

- Bi-Level Routing Attention (BRA): 提出了一种新的动态稀疏注意力机制，通过两级路由来实现内容感知的计算分配。该方法首先在粗糙的区域级别过滤掉不相关的键值对，然后在剩余候选区域的并集上应用细粒度的token-to-token注意力。

- 区域划分与输入投影: 将输入特征图划分为多个区域，并通过线性变换得到查询（Q）、键（K）和值（V）张量。

- 区域到区域的路由: 构建一个有向图来确定每个区域应该关注的其他区域，并通过保留每个节点的top-k连接来剪枝这个图。

- Token-to-Token 注意力: 在确定的路由区域上应用细粒度的注意力机制，通过聚集关键/值对并应用密集矩阵乘法来实现。

- BiFormer 架构: 利用提出的BRA作为核心构建块，提出了一个新的通用视觉Transformer架构，可以用于分类、目标检测和语义分割等多种应用。

创新点

- 动态查询感知稀疏性: 与传统的静态稀疏模式相比，BRA通过动态地、基于内容的方式选择关注区域，从而提高了计算效率。

- 两级路由机制: 通过先在区域级别进行粗粒度的过滤，再在token级别进行细粒度的注意力计算，BRA能够更有效地定位和关注与查询最相关的键值对。

- 硬件友好的实现: BRA的设计考虑了现代GPU的内存访问模式，通过密集矩阵乘法而不是稀疏矩阵乘法来提高计算效率。

- 跨区域的长距离依赖建模: BRA能够捕捉跨区域的长距离依赖关系，这对于理解图像内容和进行精确的视觉效果预测至关重要。

- 在多种视觉任务中的有效性: BiFormer在多个视觉任务上展示了其优越的性能，包括在ImageNet-1K分类、COCO目标检测和实例分割以及ADE20K语义分割上取得的显著结果。

- 计算复杂度分析: 对BRA的计算复杂度进行了分析，证明了其相对于传统注意力机制的低复杂度优势，即在适当的区域划分大小下，BRA的复杂度为O((HW)^(4/3))。

- 可视化注意力图: 通过可视化分析，展示了BRA如何成功地定位语义相关区域，并捕捉长距离的跨对象关系，进一步验证了所提方法的有效性。

需要的同学扫码添加我

回复“注意力机制21”即可全部领取

C# —— while循环语句

C++ day5

Perl语言快速入门学习

php配合fiddler批量下载淘宝天猫商品数据分享

探索 JQuery EasyUI：构建简单易用的前端页面

服务器数据恢复—热备盘未完全启用导致raid5阵列崩溃的数据恢复案例

如何在服务器上部署一个java程序

电脑提示d3dcompiler_47.dll丢失的解决方法，实测靠谱的5种方法

Linux C++

图卷积网络（Graph Convolutional Network, GCN）

一文详解扩散模型

王思聪隐形女儿曝光

Centos离线安装Python3

人工智能—美国加利福尼亚州房价预测实战

Ribbon与Nginx的区别

002-读书笔记-JavaScript高级程序设计在HTML中使用JavaScript

JavaScript的使用你知道几种？(上)

java正则表式的使用

maya建模与骨骼动画快速实现人工鱼

Nacos系列：Nacos的Java SDK使用

node和express搭建代理服务器（源码）

Rancher-k8s加速安装文档

Redis学习笔记 - pipline（流水线、管道）

Spark RDD学习: aggregate函数

UMLCHINA 首席专家潘加宇鼎力推荐

Unix命令

第2章网络文档

复习Javascript专题（四）：js中的深浅拷贝

如何胜任知名企业的商业数据分析师？

使用 QuickBI 搭建酷炫可视化分析

通过获取异步加载JS文件进度实现一个canvas环形loading图

一天一个设计模式之JS实现——适配器模式

必胜客礼品卡回收多少钱，回收平台哪家好

#Linux（帮助手册）

#微信小程序（布局、渲染层基础知识）

$.ajax()

（03）光刻——半导体电路的绘制

(Ruby)Ubuntu12.04安装Rails环境

（SpringBoot）第七章：SpringBoot日志文件

（STM32笔记）九、RCC时钟树与时钟第二部分

（仿QQ聊天消息列表加载）wp7 listbox 列表项逐一加载的一种实现方式，以及加入渐显动画...

（附源码）springboot炼糖厂地磅全自动控制系统毕业设计 341357

（附源码）springboot掌上博客系统毕业设计063131

(强烈推荐)移动端音视频从零到上手（下）

（十八）三元表达式和列表解析

（一）Kafka 安全之使用 SASL 进行身份验证 —— JAAS 配置、SASL 配置

*p++,*(p++),*++p,(*p)++区别？

.config、Kconfig、***_defconfig之间的关系和工作原理

.NET Core工程编译事件$(TargetDir)变量为空引发的思考

.net 按比例显示图片的缩略图

.NET 中选择合适的文件打开模式（CreateNew, Create, Open, OpenOrCreate, Truncate, Append）

.NET8使用VS2022打包Docker镜像

.net程序集学习心得

.NET与 java通用的3DES加密解密方法

.skip() 和 .only() 的使用

相关文章：