当前位置：首页 > news >正文

【第48篇】MaxViT：多轴视觉转换器

news 来源：原创 2024/5/12 20:55:31

文章目录

摘要
1 简介
2 相关工作
3 方法
- 3.1 注意
- 3.2 多轴注意力
- 3.3 架构变体
4 实验
- 4.1 ImageNet-1K上的图像分类
- 4.2 目标检测和实例分割
- 4.3 形象审美评价。
- 4.4 图像生成
- 4.5 消融研究。
5 讨论与结论

摘要

Transformers 最近在计算机视觉界引起了广泛关注。然而，自注意力机制在图像大小方面缺乏可扩展性，这限制了它们在最先进的视觉骨干中的广泛采用。在本文中，我们介绍了一种高效且可扩展的注意力模型，我们称之为多轴注意力，它由两个方面组成：阻塞的局部注意力和扩张的全局注意力。这些设计选择允许在任意输入分辨率上进行全局-局部空间交互，仅具有线性复杂度。我们还通过将我们提出的注意力模型与卷积有效地融合在一起，提出了一个新的架构元素，并相应地提出了一个简单的分层视觉骨干，称为 MaxVi

相关文章：

shell 基础

《uni-app》uni-app实现疯狂点赞效果（一）

service 自我升级遇到的问题

安全测试场景下怎样突破内网防御机制

Fisco开发第一个区块链应用

OpenStack之云计算技术与架构-2

Jetson连接百兆交换机丢包笔记

线索化二叉树的那些事儿

[机缘参悟-83]：如何自我前提应对可能的经-济-危-机？

一些常用的画图网站，以及一些经常听说但不太常用的图形模版

【图灵MySQL】深入理解Mysql索引底层数据结构与算法

Python数据分析实战之：特征重要性分析

40.讲初识动态规划：如何巧妙解决“双十一”购物时的凑单问题

信息学奥赛中的STL(标准模板库)--2022.09.30

量子力学摘记3

《微软的软件测试之道》成书始末、出版宣告、补充致谢名单及相关信息

chrome扩展demo1-小时钟

interface和setter，getter

js继承的实现方法

MD5加密原理解析及OC版原理实现

mockjs让前端开发独立于后端

mongodb--安装和初步使用教程

pdf文件如何在线转换为jpg图片

Redis 中的布隆过滤器

Webpack4 学习笔记 - 01：webpack的安装和简单配置

聊聊flink的BlobWriter

如何将自己的网站分享到QQ空间，微信，微博等等

在Unity中实现一个简单的消息管理器

（C语言）输入自定义个数的整数，打印出最大值和最小值

(MonoGame从入门到放弃-1) MonoGame环境搭建

（WSI分类）WSI分类文献小综述 2024

（定时器/计数器）中断系统（详解与使用）

（多级缓存）缓存同步

(附源码)apringboot计算机专业大学生就业指南毕业设计061355

（附源码）springboot建达集团公司平台毕业设计 141538

（附源码）ssm经济信息门户网站毕业设计 141634

（篇九）MySQL常用内置函数

（一）80c52学习之旅-起始篇

（一）Dubbo快速入门、介绍、使用

(一)Spring Cloud 直击微服务作用、架构应用、hystrix降级

（自用）learnOpenGL学习总结-高级OpenGL-抗锯齿

.bat批处理出现中文乱码的情况

.NET 4 并行（多核）“.NET研究”编程系列之二从Task开始

.NET Standard 的管理策略

.net 程序发生了一个不可捕获的异常

.NetCore Flurl.Http 升级到4.0后 https 无法建立SSL连接

.NET中两种OCR方式对比

@Import注解详解

@transactional 方法执行完再commit_当@Transactional遇到@CacheEvict，你的代码是不是有bug！...

@WebService和@WebMethod注解的用法

[]FET-430SIM508 研究日志 11.3.31

[Android Pro] listView和GridView的item设置的高度和宽度不起作用

[Angular] 笔记 20：NgContent

[AS3]URLLoader+URLRequest+JPGEncoder实现BitmapData图片数据保存

[AX]AX2012 SSRS报表Drill through action