当前位置: 首页 > news >正文

《UniVS: Unified and Universal Video Segmentation with Prompts as Queries》要点提炼

论文来源:https://arxiv.org/abs/2402.18115
《UniVS: Unified and Universal Video Segmentation with Prompts as Queries》是2024CVPR中的一篇关于视频分割的论文,

主要内容:

论文提出了一个名为UniVS的新型统一视频分割架构,它能够处理多种视频分割任务,包括类别指定的视频分割(category-specified VS)和提示指定的视频分割(prompt-specified VS)。UniVS通过将视频分割任务转换为由提示引导的目标分割任务,从而消除了传统方法中需要的启发式帧间匹配过程。

创新点:

  1. 使用提示作为查询(Prompts as Queries):UniVS将先前帧中目标的提示特征平均值作为初始查询,以明确解码掩码。
  2. 目标提示交叉注意力层(Target-wise Prompt Cross-Attention Layer):引入了目标提示交叉注意力(ProCA)层,以在记忆池中整合提示特征。
  3. 统一的视频掩码解码器(Unified Video Mask Decoder):通过使用预测的实体掩码作为视觉提示,UniVS将不同的视频分割任务转换为提示引导的目标分割任务。
  4. 通用训练和测试:UniVS不仅统一了不同的视频分割任务,还自然实现了通用训练和测试,确保在不同场景下的鲁棒性能。
  5. 跨多个基准的性能平衡:UniVS在10个具有挑战性的视频分割基准测试中表现出色,涵盖了视频实例、语义、全景、对象和引用分割任务。

网络结构:

UniVS主要由三个模块组成:

  1. 图像编码器(Image Encoder):将RGB图像转换为特征令牌。
  2. 提示编码器(Prompt Encoder):将原始视觉/文本提示转换为提示嵌入。
  3. 统一视频掩码解码器(Unified Video Mask Decoder):明确解码视频中任何实体或提示引导目标的掩码。

统一视频掩码解码器包含四个关键组件:

此外,UniVS在训练过程中包括三个阶段:图像级训练、视频级训练和长视频微调,以逐步提高模型对视频数据的理解能力。

论文还进行了一系列的消融研究,以验证所提出组件的有效性,并通过实验结果展示了UniVS在多个视频分割任务上的性能。

分割过程

在论文《UniVS: Unified and Universal Video Segmentation with Prompts as Queries》中,完成分割部分的过程涉及以下几个关键步骤:

  1. 图像编码(Image Encoding)

    • 输入的RGB视频帧首先通过图像编码器转换成特征表示。这通常包括一个卷积神经网络(CNN)骨干网络,它提取空间特征,以及一个像素解码器,它融合不同尺度的特征以增强表示。
  2. 提示编码(Prompt Encoding)

    • 对于视觉提示(如点击、框选、遮罩、涂鸦等),通过视觉采样器从图像特征中提取特征点,形成视觉提示嵌入。
    • 对于文本提示(如类别名称或描述性文本),使用CLIP文本编码器将文本转换为嵌入,然后通过交叉注意力层与图像特征进行交互,生成文本提示嵌入。
  3. 统一视频掩码解码(Unified Video Mask Decoding)

    • 使用初始提示查询(由先前帧中目标的提示特征平均值生成)作为掩码解码器的输入。
    • 引入目标提示交叉注意力(ProCA)层,以整合记忆池中的提示特征,并增强目标表示的独特性。
    • 通过图像交叉注意力层和分离自注意力(SepSA)层,专注于从输入帧中提取目标的详细信息,并在空间和时间域内促进目标内容的交互。
  4. 掩码预测

    • 掩码解码器的输出通过一个前馈网络(FFN)和其他转换层,最终生成每个目标的预测掩码。
    • 对于类别指定的视频分割任务,使用可学习查询来识别第一帧中的所有实体掩码,然后使用非极大值抑制(NMS)和分类阈值来过滤冗余掩码和低置信度掩码。
  5. 跨帧跟踪和实体匹配

    • 对于类别指定的视频分割任务,使用周期性目标检测策略,将分割转换为提示引导的目标分割问题。
    • 对于提示指定的视频分割任务,使用预测的实体掩码作为视觉提示,更新目标的记忆池,并在后续帧中识别和分割目标。
  6. 训练和优化

    • 训练过程中,使用像素级掩码监督损失、分类损失和ReID损失来优化模型参数。
    • 训练分为三个阶段:图像级训练、视频级训练和长视频微调,以逐步提高模型对视频数据的理解能力。
  7. 推理和输出

    • 在推理阶段,模型接收视频帧和提示,通过上述编码和解码过程预测每个目标的掩码。
    • 最终输出是视频中每个目标的分割掩码,这些掩码可以用于各种应用,如视频编辑、增强现实、视频恢复等。

整个分割过程是端到端的,意味着从输入视频帧到输出分割掩码的所有步骤都是连续的,并且可以通过反向传播和梯度下降自动优化。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • HarmonyOS学习(十)——网络编程
  • 经验笔记:在 TypeScript 中使用 Promise
  • Unreal Fest 2024 虚幻引擎影视动画制作的普遍问题
  • 第六章 类和对象(6)
  • Unity Lua方向的面试真题详解
  • 容易中、见刊快的6本医学期刊推荐!
  • React Native 0.76版本发布
  • redis入门之redis数据库的基础操作(内含常见面试题)
  • Linux学习-模拟容器网络
  • 408:强化笔记|王道|DS|OS|CO|计网
  • qtdraw-使用qt绘图之开源源码学习
  • 举债豪赌,光正眼科深陷“资本迷局”
  • zookeeper是啥?在kafka中有什么作用
  • OpenGL函数之wglCreateContext
  • 在 csv 上增加计算列
  • el-input获取焦点 input输入框为空时高亮 el-input值非法时
  • gf框架之分页模块(五) - 自定义分页
  • GraphQL学习过程应该是这样的
  • javascript从右向左截取指定位数字符的3种方法
  • JavaScript新鲜事·第5期
  • JavaSE小实践1:Java爬取斗图网站的所有表情包
  • PV统计优化设计
  • Quartz初级教程
  • 复习Javascript专题(四):js中的深浅拷贝
  • 官方解决所有 npm 全局安装权限问题
  • 聊聊hikari连接池的leakDetectionThreshold
  • 让你的分享飞起来——极光推出社会化分享组件
  • 入门到放弃node系列之Hello Word篇
  • 算法-插入排序
  • 我的业余项目总结
  • 用element的upload组件实现多图片上传和压缩
  • shell使用lftp连接ftp和sftp,并可以指定私钥
  • 微龛半导体获数千万Pre-A轮融资,投资方为国中创投 ...
  • 移动端高清、多屏适配方案
  • !! 2.对十份论文和报告中的关于OpenCV和Android NDK开发的总结
  • # AI产品经理的自我修养:既懂用户,更懂技术!
  • (9)目标检测_SSD的原理
  • (java版)排序算法----【冒泡,选择,插入,希尔,快速排序,归并排序,基数排序】超详细~~
  • (Oracle)SQL优化技巧(一):分页查询
  • (八)c52学习之旅-中断实验
  • (层次遍历)104. 二叉树的最大深度
  • (二)c52学习之旅-简单了解单片机
  • (附源码)springboot 基于HTML5的个人网页的网站设计与实现 毕业设计 031623
  • (没学懂,待填坑)【动态规划】数位动态规划
  • (亲测成功)在centos7.5上安装kvm,通过VNC远程连接并创建多台ubuntu虚拟机(ubuntu server版本)...
  • (五)网络优化与超参数选择--九五小庞
  • (一)utf8mb4_general_ci 和 utf8mb4_unicode_ci 适用排序和比较规则场景
  • (原創) 物件導向與老子思想 (OO)
  • (转)iOS字体
  • **《Linux/Unix系统编程手册》读书笔记24章**
  • .a文件和.so文件
  • .NET Core SkiaSharp 替代 System.Drawing.Common 的一些用法
  • .NET Core 网络数据采集 -- 使用AngleSharp做html解析
  • .NET/C# 编译期间能确定的相同字符串,在运行期间是相同的实例
  • .Net6支持的操作系统版本(.net8已来,你还在用.netframework4.5吗)