当前位置: 首页 > news >正文

【论文阅读】Single-Stage Visual Query Localization in Egocentric Videos

paper:

code:

简介:

长篇自我中心视频的视觉查询定位需要时空搜索和指定对象的定位。之前的工作开发了复杂的多级管道,利用完善的对象检测和跟踪方法来执行 VQL(视觉查询定位)。然而,每个阶段都是独立训练的,管道的复杂性导致推理速度缓慢。 VQLoC是一种新颖的单阶段 VQL 框架,可进行端到端训练。关键思想是首先建立对查询视频关系的整体理解,然后以单次方式执行时空定位。具体来说,通过联合考虑查询与每个视频帧之间的查询到帧对应关系以及附近视频帧之间的帧到帧对应关系来建立查询视频关系。准确率提高了 20%,推理速度提高了 10 倍。

图 1:视觉查询本地化 (VQL):(左)目标是本地化长视频中的视觉查询对象,如黄色边界框标记的响应轨迹所示。这项任务的复杂性源于需要适应视频中出现的具有不同尺度、视点和状态的开放集对象查询; (右)我们的方法 VQLoC 首先通过联合 推理查询到帧(空间)和 帧到帧(时间)对应关系,建立对查询视频关系的整体理解,然后在单阶段中定位响应并结束端到端可训练方式。

VQL 任务的自我中心性质:对象所在的视频可能变化很大,比如方向、大小、上下文和照明条件,经历模糊和遮挡。在现实世界中,以自我为中心的视频可能会持续几分钟、几小时或几天,而对象本身可能只出现几秒钟,从而导致“大海捞针”的问题。

之前的工作通过三个阶段的自下而上的框架来解决 VQL:

  1. 在每个视频帧中,检测所有对象并与视觉查询进行成对比较,以获得与查询最相似的建议;
  2. 识别整个视频中的相似性得分峰值;
  3. 围绕最近的峰值执行双向跟踪以恢复时空响应。

限制:很依赖通过独立查看每帧来检测目标的第一阶段。帧级对象检测中的错误可能会导致整个系统失败,因为框架不是端到端可微分的,并且早期阶段的错误可能无法在后期纠正。此外,由于与冗余目标建议进行两两比较的复杂性较高,推理速度较慢。

结构:VQLoC联合建模查询与每个视频帧之间的查询-帧关系以及相邻视频帧之间的帧-帧关系(图1),然后以单阶段、端到端可训练的方式进行时空定位。具体来说,

  1. 通过使用DINO预训练的ViT主干提取视觉查询和每个视频帧的图像特征,并使用交叉注意transformer建立查询中图像区域与视频帧之间的对应关系,从而建立查询到帧的关系。
  2. 然后,使用自注意transformer随时间传播这些对应关系,利用视频的时间连续性产生的帧对帧关系来捕获整体查询-视频关系。
  3. 最后,使用卷积预测头,通过利用查询-视频关系进行时空定位来进行帧级预测。

模型在单一阶段运行,即没有具有专用后处理步骤的中间定位输出,并且是端到端可训练的,因为它只使用可微模块来获得最终预测。与之前的分阶段方法相比,VQLoC的优点:

  1. 与之前在视频帧中显式生成对象建议并将其与视觉查询进行比较的工作不同,VQLoC通过在视觉查询特征和视频帧特征之间执行基于注意力的推理,隐式地建立了查询帧关系。该方法有效地利用背景和非查询对象的图像区域作为上下文信息进行推理。
  2. 隐式查询框架关系的计算速度明显快于显式生成建议和执行两两比较,这对于现实世界的情景记忆应用程序至关重要。
  3. 最后,VQLoC是端到端可训练的,性能更好。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 一键编译QT5源码脚本(交叉编译arm64、mips64版本)
  • 春秋云镜(ZZCMS 2023)·CVE-2023-50104
  • 深入探究Nginx中的URL哈希负载均衡策略
  • 引用和类型强转
  • Java算法之快速排序(Quick Sort)
  • AMD Zen 5 微架构及其市场策略
  • 简单排序(sort)
  • Openstack 与 Ceph集群搭建(完结): 配置Ceph作为Openstack后端存储
  • 如何打造基于Java SpringBoot和Vue的医院门诊智能预约平台?四步实现高效就医流程,整合MySQL数据库,优化用户体验。
  • 功能测试常用的测试用例大全
  • C#泛型相关
  • 【最新华为OD机试E卷】boos的收入(100分)-多语言题解-(Python/C/JavaScript/Java/Cpp)
  • 网易校招面试题 - 如何给 10 台机器安装 Nginx
  • 视频中间件:与海康ISC平台级联
  • RK3588 系列之1—串口连接
  • [原]深入对比数据科学工具箱:Python和R 非结构化数据的结构化
  • “寒冬”下的金三银四跳槽季来了,帮你客观分析一下局面
  • 【React系列】如何构建React应用程序
  • 【RocksDB】TransactionDB源码分析
  • 【跃迁之路】【463天】刻意练习系列222(2018.05.14)
  • 〔开发系列〕一次关于小程序开发的深度总结
  • css属性的继承、初识值、计算值、当前值、应用值
  • HomeBrew常规使用教程
  • JavaScript 事件——“事件类型”中“HTML5事件”的注意要点
  • JDK 6和JDK 7中的substring()方法
  • Linux链接文件
  • MQ框架的比较
  • MYSQL如何对数据进行自动化升级--以如果某数据表存在并且某字段不存在时则执行更新操作为例...
  • nodejs:开发并发布一个nodejs包
  • Python3爬取英雄联盟英雄皮肤大图
  • Redis 中的布隆过滤器
  • RxJS 实现摩斯密码(Morse) 【内附脑图】
  • springboot_database项目介绍
  • springMvc学习笔记(2)
  • STAR法则
  • 大型网站性能监测、分析与优化常见问题QA
  • 简单基于spring的redis配置(单机和集群模式)
  • 浅谈JavaScript的面向对象和它的封装、继承、多态
  • 使用 @font-face
  • 数据仓库的几种建模方法
  • 为什么要用IPython/Jupyter?
  • 系统认识JavaScript正则表达式
  • 掌握面试——弹出框的实现(一道题中包含布局/js设计模式)
  • 自动记录MySQL慢查询快照脚本
  • “十年磨一剑”--有赞的HBase平台实践和应用之路 ...
  • 7行Python代码的人脸识别
  • Spring Batch JSON 支持
  • 大数据全解:定义、价值及挑战
  • #职场发展#其他
  • (1/2)敏捷实践指南 Agile Practice Guide ([美] Project Management institute 著)
  • (C)一些题4
  • (LLM) 很笨
  • (第30天)二叉树阶段总结
  • (附源码)springboot 基于HTML5的个人网页的网站设计与实现 毕业设计 031623
  • (规划)24届春招和25届暑假实习路线准备规划