当前位置: 首页 > news >正文

LaViT:Less-Attention Vision Transformer的特性与优点

引言

https://arxiv.org/pdf/2406.00427
随着计算机视觉领域的发展,视觉Transformer(ViTs)逐渐成为一项重要技术。尽管ViTs在捕捉图像中的长距离依赖关系方面表现出色,但其沉重的计算负担和潜在的注意力饱和问题一直是实际应用的障碍。为解决这些问题,微软提出了Less-Attention Vision Transformer(LaViT),旨在通过引入一种新的注意力机制来提升视觉Transformer的效率和性能。

LaViT的特性

**1. Less-Attention 机制

LaViT的核心特性在于其提出的Less-Attention机制。与传统ViTs中的每一层都计算自注意力得分不同,LaViT仅在每个阶段的初始几个层中计算传统自注意力,并通过存储这些得分来在后续层中生成注意力矩阵。这种设计大幅减少了计算负担,并且解决了深层网络中的注意力饱和问题。

**2. 残差连接和注意力下采样

为了在下采样过程中保留关键上下文信息,LaViT引入了残差连接和注意力下采样模块。残差连接通过从前一阶段传递注意力得分来辅助当前阶段的注意力计算,确保重要信息的保留。而注意力下采样模块则通过深度卷积和卷积层,有效压缩前一阶段的注意力矩阵,以适配当前阶段的尺寸。

**3. 对角线保持损失

为确保转换后的注意力矩阵保留基本属性,LaViT设计了一种对角线保持损失函数。该函数有助于在转换过程中保持注意力矩阵的对角线特性和标记间的相对重要性,从而保持模型的语义完整性。

在这里插入图片描述

LaViT的优点

**1. 显著降低计算成本

由于Less-Attention机制的使用,LaViT显著降低了计算成本。相比于传统ViTs,LaViT能够在不牺牲性能的前提下,显著减少浮点运算次数(FLOPs)和内存消耗,从而适用于资源受限的场景。

**2. 提高性能表现

LaViT在各种视觉任务上均表现出色,包括图像分类、目标检测和语义分割。其提出的Less-Attention机制有效缓解了注意力饱和问题,使得深层网络能够捕获更多语义信息,提高模型的整体性能。

**3. 灵活的架构设计

LaViT的架构设计灵活,可以轻松融入各种现有ViT模型中。无论是层次结构还是非层次结构的ViT,LaViT的Less-Attention模块都能显著提高其性能。这种可扩展性使得LaViT成为一种具有广泛应用前景的视觉Transformer模型。

**4. 优秀的跨模态应用潜力

虽然当前LaViT主要应用于视觉任务,但其独特的注意力机制和高效的架构设计也为跨模态应用提供了可能性。未来,LaViT有望在图像与文本、语音等其他模态的融合中发挥重要作用,进一步推动AI技术的发展。

实验结果

为了评估LaViT模型的有效性,作者在各种基准数据集上进行了全面的实验,包括ImageNet-1K上的图像分类、COCO2017上的目标检测以及ADE20K上的语义分割。以下是具体的实验结果:

1. ImageNet-1K 图像分类

设置

  • 实验协议遵循DeiT中的流程,使用AdamW优化器从头开始训练模型300个周期(包含5个周期的预热)。
  • 初始学习率设置为0.005,使用余弦调度器进行调整。
  • 全局批量大小设置为1024,分布在4个GTX-3090 GPU上。
  • 测试时将输入图像调整到256像素,然后进行224x224像素的中心裁剪以评估分类准确性。

结果
在ImageNet-1K上的分类结果显示,LaViT模型在保持显著降低的计算成本的同时,取得了与现有最先进ViT模型相竞争的性能。具体来说:

  • 在微小模型群组中,LaViT模型至少超过了所有其他现有模型0.2%。
  • 在小型模型群组中,LaViT模型至少超过了所有其他现有模型0.5%。
  • 在基础尺寸模型中,LaViT-B(基于PVT的基础结构但包含Less-Attention组件)的性能优于两种基于PVT的模型(PVT-M和PVT-L)。
    在这里插入图片描述

2. COCO2017 目标检测

设置

  • 使用RetinaNet作为检测框架,使用从ImageNet-1K获得的预训练权重初始化主干网络。
  • 使用AdamW优化器,在8个GPU上以批量大小为16训练网络。

结果
LaViT模型在COCO2017数据集上的检测性能显著优于其他CNN和Transformer模型。具体来说:

  • LaViT-T相对于ResNet实现了9.9-12.5 AP的提升。
  • LaViT-S相对于其CNN对应版本提高了8.1-10.3 AP。
  • LaViT模型在检测性能上始终优于Swin Transformer,同时训练负担较小。

在这里插入图片描述

3. ADE20K 语义分割

设置

  • 使用Semantic FPN和UperNet作为分割的主干网络。
  • 遵循已建立的训练设置,将图像大小调整为进行训练。
  • 使用多项式调度器进行学习率衰减,在GTX3090 GPU上进行训练。

结果
LaViT模型在ADE20K数据集上的语义分割性能优于Swin Transformer和其他主流模型。具体来说:

  • 在Semantic FPN上,LaViT-S相对于Baseline(PVT-S)实现了mIoU +0.9的提升,同时显著减少了计算量。
  • 在UperNet架构中,LaViT实现了mIoU +2.7、+1.0和+1.4的显著提升。
  • 使用测试时间增强时,这些有竞争力的结果也能保持。
    在这里插入图片描述

消融研究

消融研究进一步证明了LaViT模型中各个组件的重要性和贡献:

  • Less-Attention模块:将Less-Attention层替换为MHSA的Baseline,预测准确度显著下降。
  • 注意力残差模块:移除注意力残差模块会导致预测准确度下降。
  • 对角线保持损失:仅依赖CE损失时,模型的预测会恶化,表明对角线保持损失对于保留注意力矩阵中的基本属性至关重要。

在这里插入图片描述

结论

LaViT作为微软提出的一种新型视觉Transformer模型,凭借其Less-Attention机制、残差连接、注意力下采样以及对角线保持损失等特性,在显著降低计算成本的同时提高了模型性能。其灵活的架构设计和广泛的适用性使其成为当前计算机视觉领域的一项重要技术。未来,随着LaViT的持续优化和应用拓展,我们有理由相信它将在更多领域展现出强大的潜力。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 猫头虎 分享:如何用STAR(情境、任务、行动、结果)方法来结构化回答问题?
  • 网络安全-安全渗透简介和安全渗透环境准备
  • [开端]网络运维常用命令
  • 衡石科技BI的API如何授权文档解析
  • 基于微信小程序靓丽内蒙古APP(源码+定制+辅导)
  • SSRF漏洞与redis未授权访问的共同利用
  • 【案例58】WebSphere输出日志输出慢导致线程被阻塞
  • Windows安装nexus 私服仓库(6)
  • 【性能优化】:探索系统瓶颈的根源(一)
  • Modern restaurant - building and interior (餐厅场景)
  • linux命令 sudo and su
  • 【开发笔记】Notepad++配置
  • 【C++】模拟(例题 学习)
  • 什么三维点云(3D Point Cloud)和其他数据的区别
  • 一文读懂大语言模型:基础概念篇
  • 【Linux系统编程】快速查找errno错误码信息
  • 08.Android之View事件问题
  • 2019.2.20 c++ 知识梳理
  • Android Studio:GIT提交项目到远程仓库
  • Angular6错误 Service: No provider for Renderer2
  • Angularjs之国际化
  • Apache Spark Streaming 使用实例
  • CAP理论的例子讲解
  • Django 博客开发教程 16 - 统计文章阅读量
  • HTTP那些事
  • iOS编译提示和导航提示
  • java中的hashCode
  • js递归,无限分级树形折叠菜单
  • Linux快速复制或删除大量小文件
  • node和express搭建代理服务器(源码)
  • PHP 的 SAPI 是个什么东西
  • Phpstorm怎样批量删除空行?
  • Python连接Oracle
  • Vue2.x学习三:事件处理生命周期钩子
  • 记录:CentOS7.2配置LNMP环境记录
  • 全栈开发——Linux
  • 如何胜任知名企业的商业数据分析师?
  • 使用SAX解析XML
  • 数组大概知多少
  • 鱼骨图 - 如何绘制?
  • 400多位云计算专家和开发者,加入了同一个组织 ...
  • 东超科技获得千万级Pre-A轮融资,投资方为中科创星 ...
  • (1)(1.13) SiK无线电高级配置(五)
  • (7) cmake 编译C++程序(二)
  • (k8s)Kubernetes本地存储接入
  • (补充):java各种进制、原码、反码、补码和文本、图像、音频在计算机中的存储方式
  • (超简单)构建高可用网络应用:使用Nginx进行负载均衡与健康检查
  • (机器学习的矩阵)(向量、矩阵与多元线性回归)
  • (免费领源码)Java#ssm#MySQL 创意商城03663-计算机毕业设计项目选题推荐
  • (三维重建学习)已有位姿放入colmap和3D Gaussian Splatting训练
  • (十一)c52学习之旅-动态数码管
  • (四)stm32之通信协议
  • (循环依赖问题)学习spring的第九天
  • (一)ClickHouse 中的 `MaterializedMySQL` 数据库引擎的使用方法、设置、特性和限制。
  • .net core webapi Startup 注入ConfigurePrimaryHttpMessageHandler