当前位置: 首页 > news >正文

Self-supervised Video Transformer 阅读

目录

  • 1.介绍
  • 2.SVT
    • 2.1 SVT结构
    • 2.2 自监督训练
      • Motion Correspondences
      • Cross-View Correspondences
    • 2.3 SVT loss

1.介绍

本文是针对video transformer进行自监督训练,从一个给定的视频中,创建具有不同空间大小和帧率的局部和全局时空视图,自监督的目标是寻找相同视频的不同视图特征之间的匹配。 Self-supervised Video Transformer(SVT),使用相似性目标训练师生模型,该目标通过时空注意力匹配沿时空维度的表示。

本文贡献如下:

  1. 提出一种新的自监督训练方式,利用全局和局部时空视图之间的时空关系来进行自监督训练。
  2. SVT中的自监督是通过联合motion和crossview的关系进行学习。通过学习motion关系(全局到全局时空视图匹配)和crossview关系(局部到全局时空视图匹配)来建模上下文信息。
  3. 模型的一个特性是可以进行slow-fast训练,使用动态位置编码处理可变帧率的输入。

2.SVT

此部分介绍SVT的自监督训练方法,和以往的对比学习不同,此方法从同一视频中获得不同时空特征的片段进行的。避免了负样本挖掘和记忆存储库。具体是通过损失函数使得两个不同的片段之间学习,使用师生网络,让教师网络作为学生网络的学习目标,使得学生网络学习到突出特征。
在这里插入图片描述

2.1 SVT结构

给定一个视频 X = {xt}Nt=1 ,N为视频的帧数,从其中采样得到视频片段,H,W,T分别为视频的高,宽,时间维度。以此种方法从中采样,生成两种类型的片段,global(g)和 local(l)的时空视图。g和l 都是X的子集,
g = {x’t}Kgt=1 ,l = {x’t}Klt=1 , |Kl| ≤ |Kg|。

对于global view,从原始视频沿时间轴的90%中采样,得到两个global view ,g1和g2,分别对应低帧率(T=8)和高帧率(T=16),空间维度为224 * 224。
对于local view,从原始视频沿时间轴的12.5%和空间范围40%中采样,得到八个local view,(l1,…,l8),他们的空间维度固定为96*96,时间T∈{2,4,8,16}。

SVT包含12个encoder模块,所有采样得到的视频片段(C * T * H * W)都要经过这些模块。在transformer中,训练阶段会把H=W=224,T=16的片段分割为很多patch,224 * 224的一帧会被分割为14 * 14个大小为 16 * 16的patch,因此就是得到空间196,时间16的token,最后每个token嵌入后就是768维的向量。在SVT的末尾使用MLP,最后的输出为 f .

2.2 自监督训练

通过在师生模型的特征空间中预测具有不同时空特征的不同视频片段,以自我监督的方式训练SVT。使用简单的路由策略,在师生模型随机选择传递不同的视图。教师模型处理一个global view ,产生一个特征向量 fgt ,学生模型处理global view 和 local view ,得到 fgs 和 flsi (i=1,…,8) 。通过反向传播更新学生模型的参数,教师模型的更新为学生模型的指数移动平均线(EMA)。

Motion Correspondences

视频的一个特征是帧率。改变帧率可以改变视频的动作上下文(例如,缓慢行走和快速行走),同时控制微妙的动作。预测在高帧率下捕获的细微运动将迫使模型从低帧率输入中学习与运动相关的上下文信息。
对于两个global view ,g1 (T = 8) and g2 (T = 16) ,得到了两个特征向量 fgt(1) , fgt(2) 。这两个global view 同样经过学生模型得到fgs(1) , fgs(2) ,学生模型得到的要和教师模型得到的求loss。同样地,local view经过学生模型得到fls(1) ,…, fls(8) ,全部与教师模型得到的 fgt(1) , fgt(2) 求loss。

Cross-View Correspondences

通过学习Cross-View Correspondences(CVC)来模拟跨时空变化的关系。将学生模型得到的 flsi (i=1,…,8) 与教师模型(fgt)处理的全局时空视图表示进行匹配,来学习CVC。

2.3 SVT loss

上面已经说过了,将学生模型的输出与教师模型的输出求loss。通过全局到全局视图来学习运动,而局部到全局视图来学习交叉视图对应。
在这里插入图片描述
Llg是local view和global view的loss, Lgg是global view和global view的loss 。

在这里插入图片描述
原本的输出 f 要经过一个softmax,f˜∈ Rn

在这里插入图片描述
在这里插入图片描述

相关文章:

  • ArcGisRuntime100.14绘制曲线
  • 榜一的蔑视!阿里专家手写Spring全家桶笔记,整2000页
  • 置业小技能:按揭相关事项
  • 存储更弹性,详解 Fluid “ECI 环境数据访问” 新功能
  • 高精度随流检测技术助力金融行业实现智能运维
  • windows上Qt5.15+openssl1.1.1+msvs2022静态编译32位版本的笔记
  • CentOS系统下,配制nginx访问favicon.ico
  • 1-十四烷基-3-甲基咪唑六氟磷酸盐([C14MIm][PF6])修饰纳米SiO2二氧化硅(mg级瓶装)
  • stm32f4xx-定时器
  • (过滤器)Filter和(监听器)listener
  • Java 并发编程解析 | 如何正确理解Java领域中的锁机制,我们一般需要掌握哪些理论知识?
  • Vue项目流程7,交易页面,提交订单,支付页面,利用element UI 以及 QRCode 完成微信支付,弹出框按钮的相关工作,个人中心以及子路由我的订单
  • 在Java中使用SFTP传输文件
  • OC5860降压芯片,MPS2459脚位一样,节省肖特基规格书
  • 哈工大李治军老师操作系统笔记【4】:系统调用的实现(Learning OS Concepts By Coding Them !)
  • JavaScript工作原理(五):深入了解WebSockets,HTTP/2和SSE,以及如何选择
  • Java程序员幽默爆笑锦集
  • js算法-归并排序(merge_sort)
  • spring-boot List转Page
  • sublime配置文件
  • tab.js分享及浏览器兼容性问题汇总
  • 创建一种深思熟虑的文化
  • 猴子数据域名防封接口降低小说被封的风险
  • 基于Vue2全家桶的移动端AppDEMO实现
  • 理清楚Vue的结构
  • 力扣(LeetCode)21
  • 前端每日实战:70# 视频演示如何用纯 CSS 创作一只徘徊的果冻怪兽
  • Oracle Portal 11g Diagnostics using Remote Diagnostic Agent (RDA) [ID 1059805.
  • 容器镜像
  • ​VRRP 虚拟路由冗余协议(华为)
  • ​低代码平台的核心价值与优势
  • ​软考-高级-系统架构设计师教程(清华第2版)【第1章-绪论-思维导图】​
  • ​软考-高级-系统架构设计师教程(清华第2版)【第9章 软件可靠性基础知识(P320~344)-思维导图】​
  • #LLM入门|Prompt#1.8_聊天机器人_Chatbot
  • #QT(智能家居界面-界面切换)
  • ( 10 )MySQL中的外键
  • (2022 CVPR) Unbiased Teacher v2
  • (C语言)二分查找 超详细
  • (规划)24届春招和25届暑假实习路线准备规划
  • (七)微服务分布式云架构spring cloud - common-service 项目构建过程
  • (亲测有效)解决windows11无法使用1500000波特率的问题
  • (续)使用Django搭建一个完整的项目(Centos7+Nginx)
  • (一)python发送HTTP 请求的两种方式(get和post )
  • (转)EOS中账户、钱包和密钥的关系
  • (转)Mysql的优化设置
  • .cfg\.dat\.mak(持续补充)
  • .mysql secret在哪_MySQL如何使用索引
  • .net core MVC 通过 Filters 过滤器拦截请求及响应内容
  • .NET delegate 委托 、 Event 事件
  • .NET Standard 支持的 .NET Framework 和 .NET Core
  • .NET性能优化(文摘)
  • .NET学习教程二——.net基础定义+VS常用设置
  • .Net组件程序设计之线程、并发管理(一)
  • /etc/skel 目录作用
  • @RequestMapping 的作用是什么?