当前位置: 首页 > news >正文

深度学习高效性网络

为了减轻Transformer笨重的计算成本,一系列工作重点开发了高效的Vision Transformer,如Swin Transformer、PVT、Twins、CoAtNet和MobileViT。

1、字节TRT-ViT

兼具CNN的速度、Transformer精度的模型

TRT-ViT(Transformer-based Vision Transformer)是一个结合了Transformer和ViT的模型,旨在同时利用CNN和Transformer的优点,以实现更高的性能和效率。TRT-ViT将CNN作为ViT的一部分,从而实现了在速度和精度之间的平衡。

TRT-ViT的核心思想是将CNN的局部性和Transformer的全局性相结合。具体来说,TRT-ViT使用CNN提取图像的局部特征,然后将这些特征作为Transformer的输入。这样,模型可以同时捕捉图像的局部信息和全局信息,从而实现更好的性能。

TRT-ViT的另一个关键特点是其高效性。由于它结合了CNN和Transformer的优点,因此在训练和推理过程中具有较高的效率。此外,TRT-ViT还采用了一些技术来减少计算量和内存消耗,以实现更高效的模型。

在实际应用中,TRT-ViT可以广泛应用于计算机视觉任务,如图像分类、目标检测和语义分割等。通过将CNN和Transformer相结合,TRT-ViT可以在速度和精度之间取得更好的平衡,从而满足不同任务的需求。

2、EfficientFormer

EfficientFormer: Vision Transformers at MobileNet Speed,在IPhone12的推理延迟仅为1.6 ms

3、AdaptFormer

概念简单但有效的框架AdaptFormer,用于有效地将预训练的视觉Transformer(ViT)主干迁移到可伸缩的视觉识别任务。通过引入AdaptMLP,本文的AdaptFormer能够调整轻量级模块,以生成适应多个下游任务的特征。

4、Auto-scaling Vision Transformers

As-ViT(Auto-scaling Vision Transformers),这是一个无需训练的 ViT 自动扩展框架,它能以高效且有原则的方式自动设计和扩展 ViT。

5、MSG-Transformer

面向高分辨率的ViT框架:华为、华中科技大学联合提出了一种全新的信使Token来实现灵活而高效的局部信息交互。在MSG-Transformer中,信使Token负责提取每一个局部区域的信息,并与其他信使token进行交换,然后将交换后的信息传递回对应的区域。利用信使token进行信息交换有极高的灵活度,在高分辨场景有很大的潜力。

MSG Transformer引入的MSG token对计算量和模型参数都影响不大,所以其和Swin Transformer一样其计算复杂度线性于图像大小。在ImageNet上,其模型效果和Swin接近,但其在CPU上速度较快。在COCO数据集上,基于Mask R-CNN模型,也可以和Swin模型取得类似的效果。此外,信使Token的机制在建模时间信息上也有着明显优势,相信该机制在未来Transformer结构设计中能够带来更多的启发。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 2024钉钉杯B题医疗门诊患者及用药数据案例分析
  • SolidWorks设计库的应用
  • 基于Golang+Vue3快速搭建的博客系统
  • 顺序表和单链表的代码实现
  • Ubuntu22.04安装Go语言的几种方式
  • Nginx系列-12 Nginx使用Lua脚本进行JWT校验
  • 【第三天】计算机网络 HTTP请求中常见的状态码 什么是强缓存和协商缓存
  • Spark进化论:从RDD到DataFrame,揭秘Spark SQL如何成为性能引擎的幕后英雄
  • 【数据结构】排序
  • Linux 安装 GDB (无Root 权限)
  • 【个人亲试最新】WSL2中的Ubuntu 22.04安装Docker
  • 构造+有序集合,CF 1023D - Array Restoration
  • CSS的常见难见
  • 谷粒商城实战笔记-编码经验积累
  • 神经网络与注意力机制的权重学习对比:公式探索
  • IE9 : DOM Exception: INVALID_CHARACTER_ERR (5)
  • 0基础学习移动端适配
  • Create React App 使用
  • ES学习笔记(12)--Symbol
  • HTTP中的ETag在移动客户端的应用
  • JavaSE小实践1:Java爬取斗图网站的所有表情包
  • JS基础篇--通过JS生成由字母与数字组合的随机字符串
  • Node项目之评分系统(二)- 数据库设计
  • puppeteer stop redirect 的正确姿势及 net::ERR_FAILED 的解决
  • Rancher如何对接Ceph-RBD块存储
  • Vue官网教程学习过程中值得记录的一些事情
  • 互联网大裁员:Java程序员失工作,焉知不能进ali?
  • 如何选择开源的机器学习框架?
  • 数据仓库的几种建模方法
  • 微信小程序开发问题汇总
  • 小程序开发中的那些坑
  • 小试R空间处理新库sf
  • 异步
  • 3月27日云栖精选夜读 | 从 “城市大脑”实践,瞭望未来城市源起 ...
  • 数据库巡检项
  • ​Kaggle X光肺炎检测比赛第二名方案解析 | CVPR 2020 Workshop
  • ​Linux Ubuntu环境下使用docker构建spark运行环境(超级详细)
  • ###C语言程序设计-----C语言学习(3)#
  • #include到底该写在哪
  • #微信小程序:微信小程序常见的配置传旨
  • %@ page import=%的用法
  • (10)ATF MMU转换表
  • (C语言)求出1,2,5三个数不同个数组合为100的组合个数
  • (k8s)Kubernetes 从0到1容器编排之旅
  • (ZT)薛涌:谈贫说富
  • (二)JAVA使用POI操作excel
  • (回溯) LeetCode 78. 子集
  • (紀錄)[ASP.NET MVC][jQuery]-2 純手工打造屬於自己的 jQuery GridView (含完整程式碼下載)...
  • (考研湖科大教书匠计算机网络)第一章概述-第五节1:计算机网络体系结构之分层思想和举例
  • (论文阅读32/100)Flowing convnets for human pose estimation in videos
  • (十)T检验-第一部分
  • (四)linux文件内容查看
  • (学习日记)2024.01.09
  • (原创)Stanford Machine Learning (by Andrew NG) --- (week 9) Anomaly DetectionRecommender Systems...
  • .NET CORE Aws S3 使用