当前位置: 首页 > news >正文

(论文阅读23/100)Hierarchical Convolutional Features for Visual Tracking

文献阅读笔记(分层卷积特征)

简介

题目

Hierarchical Convolutional Features for Visual Tracking

作者

Chao Ma, Jia-Bin Huang, Xiaokang Yang and Ming-Hsuan Yang

原文链接

arxiv.org/pdf/1707.03816.pdf

关键词

Hierarchical convolution、visual tracking

研究问题

Tracking 难点:变形、突变运动、背景杂乱、遮挡。

较早的早期卷积层tracking:更精准的定位,但是对物体的改变并不稳定。不能捕获语义信息。所以使用多层CNN特征进行视觉跟踪的推理是非常重要的,因为语义对显著的外观变化具有鲁棒性,而空间细节对于精确定位是有效的。

问题1:使用神经网络作为在线分类器,其中只使用最后一层的输出来表示目标。对于高层视觉识别问题,使用来自最后一层的特征是有效的,因为它们与类别级别的语义最密切相关,并且对干扰变量(如类内变化和精确位置)最具有不变性。然而,视觉跟踪的目的是精确定位目标,而不是推断其语义类别。

问题2:训练样本的提取。训练一个鲁棒的分类器需要大量的正负样本,这在视觉跟踪中是不可能的。此外,由于在目标附近采样,正负样本高度相关,因此在确定决策边界时存在模糊性。

较早层的特征保留了更高的空间分辨率,以实现精确的定位,其低层视觉信息类似于Gabor滤波器的响应图。另一方面,后一层的特征捕获了更多的语义信息和更少的细粒度空间细节。

研究方法

(i)使用CNNs分层层的特征而不是仅使用最后一层来表示目标。

将卷积层的层次结构解释为图像金字塔表示的非线性对应,并利用这些多层次的抽象来进行视觉跟踪。

早期特征缓解漂移问题(drifting):为了精准定位。

(ii)在每个CNN层上学习自适应相关滤波器,无需采样。

在每个卷积层上自适应地学习相关滤波器来对目标外观进行编码。分层推断每一层的最大响应来定位目标。缓解采样模糊问题。

我们采用由粗到精的方式,利用多级相关响应图来推断目标位置。

(iii)缓解采样二义性:将所有偏移版本的特征作为训练样本,回归到具有较小空间带宽的高斯函数,从而缓解训练二元判别分类器的采样二义性。

本文算法的主要步骤。给定一幅图像,首先裁剪以前一帧估计位置为中心的搜索窗口。使用第三,第四和第五卷积层作为我们的目标表示。然后,由i索引的每一层与学习到的线性相关滤波器w ( i )卷积生成响应图,其最大值的位置表示估计的目标位置。通过搜索多层响应图,以由粗到精的方式推断目标位置。

低的空间分辨率不足以对目标进行准确定位。通过双线性插值将每个特征图调整到固定的较大尺寸来缓解这一问题。

不使用池化层的输出,因为希望在每个卷积层上保留更多的空间分辨率。

研究结论

在准确性和鲁棒性方面优于现有的先进方法。

额外知识

optical flow:光流的概念是指在连续的两帧图像中由于图像中的物体移动或者摄像头的移动导致的图像中目标像素的移动。

光流法(optical flow methods) - 知乎 (zhihu.com)

conv3 - 4层更有利于精确定位。

conv5 - 4层的空间分辨率较低。

相关文章:

  • 内涝积水监测预警解决方案,改善城市积水
  • C++ std::find_if用法
  • react ts实现一个 无限加载组件
  • 【前端开发】图例宽度根据数值自适应
  • 立哥先进研发-API安全方案
  • 对产品实现折扣服务(对多个异步任务进行流水线操作)
  • 云汇优想:抖音矩阵系统有哪些类型?
  • 集团VPN问题排查及核心交换机(思科C9500)路由编写
  • PDF Expert for mac(专业pdf编辑器)苹果电脑
  • 数据库安全:Hadoop 未授权访问-命令执行漏洞.
  • K8s安装doris踩坑记录
  • git 简单入门
  • 阿里云OSS和腾讯云COS对象存储介绍和简单使用
  • 高并发场景下,如何设计订单库存架构,一共9个关键性问题
  • 了解防抖和节流:提升前端交互体验的实用策略
  • 2017届校招提前批面试回顾
  • Essential Studio for ASP.NET Web Forms 2017 v2,新增自定义树形网格工具栏
  • MQ框架的比较
  • Mybatis初体验
  • vue2.0一起在懵逼的海洋里越陷越深(四)
  • 编写符合Python风格的对象
  • 好的网址,关于.net 4.0 ,vs 2010
  • 警报:线上事故之CountDownLatch的威力
  • 前端面试之闭包
  • 前端面试总结(at, md)
  • 延迟脚本的方式
  • 关于Kubernetes Dashboard漏洞CVE-2018-18264的修复公告
  • ​Kaggle X光肺炎检测比赛第二名方案解析 | CVPR 2020 Workshop
  • ​queue --- 一个同步的队列类​
  • ###51单片机学习(1)-----单片机烧录软件的使用,以及如何建立一个工程项目
  • #Spring-boot高级
  • (1)Map集合 (2)异常机制 (3)File类 (4)I/O流
  • (JS基础)String 类型
  • (附源码)ssm高校社团管理系统 毕业设计 234162
  • (附源码)ssm高校志愿者服务系统 毕业设计 011648
  • (企业 / 公司项目)前端使用pingyin-pro将汉字转成拼音
  • (一)Thymeleaf用法——Thymeleaf简介
  • *setTimeout实现text输入在用户停顿时才调用事件!*
  • .bat批处理(二):%0 %1——给批处理脚本传递参数
  • .NET 4.0中的泛型协变和反变
  • .NET 8.0 发布到 IIS
  • .NetCore Flurl.Http 升级到4.0后 https 无法建立SSL连接
  • .NET精简框架的“无法找到资源程序集”异常释疑
  • .net流程开发平台的一些难点(1)
  • .NET企业级应用架构设计系列之技术选型
  • .NET使用存储过程实现对数据库的增删改查
  • @angular/cli项目构建--Dynamic.Form
  • @synthesize和@dynamic分别有什么作用?
  • []串口通信 零星笔记
  • [2544]最短路 (两种算法)(HDU)
  • [HDU5685]Problem A
  • [java/jdbc]插入数据时获取自增长主键的值
  • [LeetCode]Balanced Binary Tree
  • [node] Node.js的Web 模块
  • [one_demo_16]直接插入排序的demo