当前位置: 首页 > news >正文

ViT模型中的tokens和patches概念辨析

概念辨析

在ViT模型中,“tokens”(令牌)和"patches"(图像块)是两个相关但不同的概念。

  • 令牌(Tokens):在ViT中,令牌是指将输入图像分割成固定大小的图块,并将每个图块映射为一个向量表示。这些向量表示即为令牌。每个令牌代表图像中的一个局部区域,可以看作是图像的抽象表示。通过将图像分割成令牌序列,并将其输入到Transformer模型中,ViT能够利用自注意力机制来建模图像中的全局关系。

  • 图像块(Patches):图像块是指将输入图像分割成固定大小的小块。在ViT中,图像块被用作生成令牌的基本单位。每个图像块由一组像素组成,并通过线性变换映射为令牌的向量表示。图像块的目的是将图像分割为可处理的小块,以便进行后续的编码和处理。

因此,图像首先被分割为图像块(patches),然后每个图像块被映射为一个令牌(tokens)。令牌是对图像块的抽象表示,用于输入到Transformer模型中进行全局关系的建模。

对于标准的Transformer模块,要求输入的是token(向量)序列,即二维矩阵[num_token, token_dim],如下图,token0-9对应的都是向量。

在这里插入图片描述

输入步骤

  1. 首先将一张图片按给定大小分成一堆Patches。以ViT-B/16为例,将输入图片大小(224x224)按照16x16大小的Patch进行划分,划分后会得到 ( 224 / 16 ) 2 = 196 ( 224 / 16 ) ^2=196 (224/16)2=196个Patches。
  2. 通过线性映射将每个Patch映射到一维向量中,以ViT-B/16为例,每个Patche数据shape为[16, 16, 3]通过映射得到一个长度为768的向量(直接称为token)

总结起来,图像块是图像的原始分割块,而令牌是对图像块的向量表示,用于输入ViT模型进行处理。

参考:Vision Transformer详解

相关文章:

  • 86.Linux系统下复制进程fork(逻辑地址和物理地址)
  • Scala语言用Selenium库写一个爬虫模版
  • 【监控指标】监控系统-prometheus、grafana。容器化部署。go语言 gin框架、gRPC框架的集成
  • python-全自动二维码识别
  • ST7789LCD调试笔记
  • superset study day01 (本地启动superset项目)
  • AWS:EC2实例创建步骤
  • 文件重命名自动化:批量处理让生活更简单
  • 2024上海国际人工智能展(CSITF)“创新驱动发展·科技引领未来”
  • 【Linux】第十站:git和gdb的基本使用
  • 软件架构师
  • 吴恩达《机器学习》5-6:向量化
  • 腾讯云16核服务器配置有哪些?CPU型号处理器主频性能
  • 分享zframe_send使用过程中 的一个小问题
  • React Native自学笔记
  • [译] 理解数组在 PHP 内部的实现(给PHP开发者的PHP源码-第四部分)
  • CSS 专业技巧
  • ES6核心特性
  • Essential Studio for ASP.NET Web Forms 2017 v2,新增自定义树形网格工具栏
  • gulp 教程
  • java8 Stream Pipelines 浅析
  • JavaScript 无符号位移运算符 三个大于号 的使用方法
  • JavaScript设计模式与开发实践系列之策略模式
  • JS创建对象模式及其对象原型链探究(一):Object模式
  • Linux链接文件
  • MobX
  • October CMS - 快速入门 9 Images And Galleries
  • PAT A1050
  • socket.io+express实现聊天室的思考(三)
  • Spring Security中异常上抛机制及对于转型处理的一些感悟
  • Vue官网教程学习过程中值得记录的一些事情
  • Webpack 4 学习01(基础配置)
  • 开源SQL-on-Hadoop系统一览
  • 三分钟教你同步 Visual Studio Code 设置
  • 设计模式(12)迭代器模式(讲解+应用)
  • 使用parted解决大于2T的磁盘分区
  • 数据仓库的几种建模方法
  • 通信类
  • 我建了一个叫Hello World的项目
  • 想使用 MongoDB ,你应该了解这8个方面!
  • 责任链模式的两种实现
  • Java数据解析之JSON
  • Redis4.x新特性 -- 萌萌的MEMORY DOCTOR
  • ​中南建设2022年半年报“韧”字当头,经营性现金流持续为正​
  • #NOIP 2014# day.1 生活大爆炸版 石头剪刀布
  • #Spring-boot高级
  • (delphi11最新学习资料) Object Pascal 学习笔记---第2章第五节(日期和时间)
  • (八十八)VFL语言初步 - 实现布局
  • (层次遍历)104. 二叉树的最大深度
  • (顶刊)一个基于分类代理模型的超多目标优化算法
  • (附源码)ssm高校实验室 毕业设计 800008
  • (接口封装)
  • (六) ES6 新特性 —— 迭代器(iterator)
  • (每日持续更新)信息系统项目管理(第四版)(高级项目管理)考试重点整理 第13章 项目资源管理(七)
  • (免费领源码)python#django#mysql公交线路查询系统85021- 计算机毕业设计项目选题推荐