当前位置: 首页 > news >正文

目标检测-Transformer-ViT和DETR

文章目录

  • 前言
  • 一、ViT
    • 应用和结论
    • 结构及创新点
  • 二、DETR
    • 应用和结论
    • 结构及创新点
  • 总结


前言

随着Transformer爆火以来,NLP领域迎来了大模型时代,成为AI目前最先进和火爆的领域,介于Transformer的先进性,基于Transformer架构的CV模型也开始涌现。本文介绍一下最先得到可靠应用的简单模型:ViT(Vision Transformer)、DETR(Detection Transformer)。


一、ViT

应用和结论

ViT是2020年Google团队提出的将Transformer应用在图像分类的模型,但是因为其模型“简单”且效果好,可扩展性强(scalable,模型越大效果越好),成为了Transformer在CV领域通用的backbone。

ViT原论文中最核心的结论是,当拥有足够多的数据进行预训练的时候,ViT的表现就会超过CNN,突破transformer缺少归纳偏置的限制,可以在下游任务中获得较好的迁移效果。但是当训练数据集不够大的时候,ViT的表现通常比同等大小的ResNets要差一些,这是因为Transformer和CNN相比缺少归纳偏置(inductive bias),即一种先验知识,提前做好的假设。

CNN具有两种归纳偏置:一种是局部性,即图片上相邻的区域具有相似的特征;一种是平移不变形,先卷积还是先平移结果都是一样

结构及创新点

ViT的结构:

  • 相比于NLP领域的词嵌入(Word Embedding),ViT采用了(Patch Embedding)
  • ViT将输入图片分为16x16大小的多个Patch,再将每个Patch投影为固定长度的向量,通过sum方式进行位置编码后送入Transformer Encoder,Transformer Encoder的操作和原始Transformer中完全相同。但是因为对图片分类,因此在输入序列中加入一个特殊的token,该token对应的输出即为最后的类别预测。
  • ViT block:224x224x3 -> Patch Embedding(197 * 768) -> Positional Encoding(197 * 768) -> Transformer Encoder(197 * 768) -> MLP放大再缩小(197 * 768)

模型结构图如下:
![[Pasted image 20231214171422.png]]

二、DETR

应用和结论

Detection Transformer(DETR)是Facebook AI的研究者提出的Transformer的视觉版本,用于目标检测和全景分割。这是第一个将Transformer成功整合为检测pipeline中心构建块的目标检测框架。

DETR找目标类似于地图中找目标一样,先全局范围内粗略搜,然后用放大镜精确锁定目标,因此其对小物体的检测效果不是很好;

结构及创新点

DETR之前,深度学习领域中的目标检测,大致可以分为:一阶段检测与二阶段检测。这些检测方法基本上将目标检测分为分类+框回归任务,无法直接获取到检测结果,并由于重复的大量预测框产生的NMS等操作会大大影响检测的性能。

DETR将目标检测当作一个集合预测问题,一次预测N个对象,然后通过基于集合的loss(匈牙利算法)找出预测集N个类别的排序序列与真值集相匹配的最小的序列来保证真实对象和预测对象之间的匹配,然后通过边框loss保证每个预测对象的边框精度

DETR有两个创新点:

  • 一是新的目标函数,通过二分图匹配(匈牙利算法和HK(Hopcroft-Karp)算法等)的方式,强制模型对每个物体生只生成一个预测框
  • 二是使用Transformer的编码器-解码器架构
  1. 使用可学习的object query替代了生成anchor的机制。DETR可以将learned object query和全局图像信息结合起来,通过不停的做注意力操作,从而使得模型直接输出最后的预测框。
  2. 并行预测框。因为图像中目标没有依赖关系,并行输出使得速度更快。

模型结构图如下:
在这里插入图片描述


总结

在COCO数据集上的性能,DETR和一个训练好的Faster R-CNN baseline是差不多的,无论从内存、速度还是精度来说。

DETR具有两大缺点:

(1)收敛速度慢:因为全局像素之间计算注意力要收敛到几个稀疏的像素点需要消耗很长的时间。

(2)小目标检测差:目标检测基本都是在大分辨率的特征图上进行小目标的检测,但是Transformer中的Self Attention的计算复杂度是平方级别的,所以只能利用到最后一层特征图。

相关文章:

  • 备战蓝桥杯—— 双指针技巧巧答链表1
  • Leetcoder Day17| 二叉树 part06
  • 如何将实景三维倾斜模型叠加到三维地球上?
  • AMRT3D数字孪生引擎详解
  • DataX学习详解
  • 【笔记】【开发方案】APN 配置参数 bitmask 数据转换(Android KaiOS)
  • 数字热潮:iGaming 能否推动加密货币的普及?
  • 【LeetCode-337】打家劫舍III(动态规划)
  • vivado FSM Components
  • 云HIS系统源码,基于云计算技术的B/S架构的云HIS系统,二甲医院信息管理系统
  • 【Ubuntu】Anaconda的安装和使用
  • etcd: mac 环境部署
  • Windows+Yolo3-darknet训练自己数据集并测试
  • 【0265】postmaster守护进程入口
  • 学习大数据所需的java基础(5)
  • canvas绘制圆角头像
  • const let
  • Elasticsearch 参考指南(升级前重新索引)
  • Java知识点总结(JavaIO-打印流)
  • MySQL-事务管理(基础)
  • Xmanager 远程桌面 CentOS 7
  • 大整数乘法-表格法
  • 湖南卫视:中国白领因网络偷菜成当代最寂寞的人?
  • 基于 Ueditor 的现代化编辑器 Neditor 1.5.4 发布
  • 计算机常识 - 收藏集 - 掘金
  • 简单易用的leetcode开发测试工具(npm)
  • 浏览器缓存机制分析
  • 面试遇到的一些题
  • 小程序、APP Store 需要的 SSL 证书是个什么东西?
  • [地铁译]使用SSD缓存应用数据——Moneta项目: 低成本优化的下一代EVCache ...
  • TPG领衔财团投资轻奢珠宝品牌APM Monaco
  • # 睡眠3秒_床上这样睡觉的人,睡眠质量多半不好
  • ### Cause: com.mysql.jdbc.exceptions.jdbc4.MySQLTr
  • #中的引用型是什么意识_Java中四种引用有什么区别以及应用场景
  • $var=htmlencode(“‘);alert(‘2“); 的个人理解
  • (13)[Xamarin.Android] 不同分辨率下的图片使用概论
  • (3)(3.2) MAVLink2数据包签名(安全)
  • (poj1.2.1)1970(筛选法模拟)
  • (Redis使用系列) Springboot 实现Redis 同数据源动态切换db 八
  • (附源码)node.js知识分享网站 毕业设计 202038
  • (附源码)springboot美食分享系统 毕业设计 612231
  • (每日持续更新)jdk api之FileReader基础、应用、实战
  • (免费分享)基于springboot,vue疗养中心管理系统
  • (十七)devops持续集成开发——使用jenkins流水线pipeline方式发布一个微服务项目
  • (转)清华学霸演讲稿:永远不要说你已经尽力了
  • *2 echo、printf、mkdir命令的应用
  • .chm格式文件如何阅读
  • .halo勒索病毒解密方法|勒索病毒解决|勒索病毒恢复|数据库修复
  • .Net Winform开发笔记(一)
  • .NET 发展历程
  • .NET 分布式技术比较
  • .net安装_还在用第三方安装.NET?Win10自带.NET3.5安装
  • /usr/local/nginx/logs/nginx.pid failed (2: No such file or directory)
  • ::前边啥也没有
  • [ C++ ] STL_stack(栈)queue(队列)使用及其重要接口模拟实现