当前位置: 首页 > news >正文

多目标跟踪之StrongSORT论文(翻译+精读)

StrongSORT:让DeepSORT再次伟大

摘要

翻译

近年来,多目标跟踪(MOT)引起了越来越多的关注,并取得了显着的进展。然而,现有的方法往往使用各种基本模型(例如检测器和嵌入模型)和不同的训练或推理技巧。因此,建立一个良好的基线以进行公平比较至关重要。在本文中,首先重新审视了经典的跟踪器 DeepSORT,然后从对象检测、特征嵌入和轨迹关联等多个角度进行了显着改进。拟议的跟踪器名为 StrongSORT,为 MOT 社区贡献了强大而公平的基线。此外,提出了两种轻量级、即插即用的算法来解决 MOT 两个固有的“缺失”问题:关联失败和没检测到。具体来说,与大多数以高计算复杂度将短轨迹关联成完整轨迹的方法不同,我们提出了一种无外观链接模型(AFLink),可以在没有外观信息的情况下执行全局关联,并在速度和准确性之间取得良好的平衡。此外,我们提出基于高斯过程回归的高斯平滑插值(GSI)来减少丢失检测。 AFLink 和 GSI 可以轻松插入各种跟踪器,而额外的计算成本可以忽略不计(在 MOT17 上,每个图像分别为 1.7 毫秒和 7.1 毫秒)。最后,通过将 StrongSORT 与 AFLink 和 GSI 融合,最终跟踪器 (StrongSORT++) 在多个公共基准测试(即 MOT17、MOT20、DanceTrack 和 KITTI)上取得了最先进的结果。代码可在 https://github.com/dyhBUPT/StrongSORT 和 https://github.com/open-mmlab/mmtracking 获取。

精读

创新点:

  1. 改进了DeepSORT:从对象检测、特征嵌入和轨迹关联等多个角度进行了显着改进。
  2. 提出了两种轻量级的、即插即用的算法:解决了两个匹配不上的问题(没有关联到检测框的轨迹、没有关联到轨迹的检测框)。
  3. 提出了无外观链接模型AFLink,在没有外观信息的情况下取得了速度和准确度的良好平衡。
  4. 提出了基于高斯过程回归的高斯平滑插值(GSI),减少未匹配的检测
  5. 整合了StrongSORT和AFLink以及GSI,形成了StrongSORT++。

1.引言

翻译

多目标跟踪(MOT)旨在逐帧检测和跟踪所有特定类别的目标,这在视频理解中起着至关重要的作用。在过去的几年中,MOT任务一直以检测跟踪(TBD)范式为主[60,3,55,4,32],它执行每帧检测并将MOT问题表述为数据关联任务。 TBD 方法倾向于首先提取外观和/或运动嵌入,然后执行二分图匹配。受益于高性能的目标检测模型,TBD方法因其优异的性能而受到青睐。由于 MOT 是与对象检测和对象重新识别(ReID)相对应的下游任务,因此最近的工作倾向于使用各种检测器和 ReID 模型来提高 MOT 性能 [18, 39],这使得很难在它们之间构建公平的比较。阻碍公平比较的另一个问题是使用各种外部数据集进行训练 [64, 63]。此外,还使用一些训练和推理技巧来提高跟踪性能。

为了解决上述问题,本文提出了一种简单但有效的 MOT 基线,称为 StrongSORT。我们重新审视经典的 TBD 跟踪器 DeepSORT [55],它是将深度学习模型应用于 MOT 任务的最早的方法之一。我们选择 DeepSORT 是因为它的简单性、可扩展性和有效性。据称,与最先进的方法相比,DeepSORT 的表现不佳是因为其技术过时,而不是其跟踪范式。具体来说,我们首先在[63]和嵌入模型[30]之后为DeepSORT配备强大的检测器[18]。然后,我们从最近的作品中收集了一些推理技巧,以进一步提高其性能。简单地为 DeepSORT 配备这些先进的组件就产生了所提出的 StrongSORT,并且事实证明它可以在流行的基准 MOT17 [31] 和 MOT20 [9] 上实现 SOTA 结果。

StrongSORT 的动机可以概括如下:

  • 它可以作为不同跟踪方法之间公平比较的基线,特别是对于通过检测进行跟踪的跟踪器。
  • 与弱基线相比,较强的基线可以更好地证明方法的有效性。
  • 精心收集的推理技巧可以应用于其他跟踪器,而无需重新训练模型。这可以有利于学术界和工业界的一些任务。

精读

MOT任务特点:

  1. 以检测跟踪(TBD)范式为主
  2. 倾向于首先提取外观或运动信息,在执行数据关联
  3. 两个主要任务:目标检测、目标重识别(ReID)

**目前问题:**在不同的跟踪器中很难构建公平的比较。(工作侧重方向、外部数据集、不同的训练推理技巧)

DeepSORT的特点:

  1. 简单、可扩展、有效
  2. 技术过时

**问题的改进:**提出了StrongSORT,主要对DeepSORT的改进有:

  1. 为DeepSORT配备了强大的检测器YOLOX【18】
  2. 一个新的重识别技术【30】
  3. 一个数据关联的改进方法【63】

**效果:**在MOT17和MOT20上实现SOTA效果。

**StrongSORT的优点:**作为与其他跟踪方法比较的一个较好的基线,同时由于进行多次实验得到的很好的推理技巧使得可以重新应用于其他跟踪器,不用重新训练模型。

翻译

MOT任务中存在两个“缺失”问题,即缺失关联和缺失检测。缺少关联意味着同一对象分布在多个 tracklet 中。这个问题在在线跟踪器中尤其常见,因为它们缺乏关联的全局信息。漏检,也称为漏报,是指将物体识别为背景,通常是由遮挡和低分辨率引起的。

首先,对于缺失关联问题,有几种方法提出使用全局链接模型将短轨迹关联到轨迹中[11,47,50,35,58]。他们通常首先生成准确但不完整的轨迹,然后以离线方式将它们与全局信息关联起来。尽管这些方法显着提高了跟踪性能,但它们依赖于计算密集型模型,尤其是外观嵌入。相比之下,我们提出了一种无外观链接模型(AFLink),它仅利用时空信息来预测两个输入轨迹是否属于同一 ID。没有外观模型,AFLink在速度和准确性之间实现了更好的权衡。

其次,线性插值被广泛用于补偿丢失的检测[36,22,33,37,63,11]。然而,它在插值过程中忽略了运动信息,这限制了插值位置的准确性。为了解决这个问题,我们提出了高斯平滑插值算法(GSI),它使用高斯过程回归算法来修复插值边界框[54]。 GSI也是一种检测噪声滤波器,可以产生更准确和稳定的定位。

精读

**MOT主要的两个问题:**1. 关联失败;2. 没检测到

关联失败

  1. 解释:同一个目标分布在多个不同的轨迹中,也就是目标的ID发生了变化
  2. 原因:跟踪器缺乏关联的全局信息?
  3. 现有解决方法:如全局链接模型
    1. 具体方法:将短轨迹关联到轨迹中。先生成准确但不完整的轨迹,然后以离线的方式将它们与全局信息关联起来。
    2. 问题:依赖于计算密集型模型,尤其是外观信息。
  4. 我们提出的模型:AFLink
    1. 具体方法:仅利用时空信息预测两个输入轨迹是否属于同一ID,不使用外观
    2. 优点:速度和准确性实现了良好的平衡。
  5. 思考:AFLink的加入使得跟踪器变成了离线模式。

没检测到(漏检):

  1. 解释:目标存在,但是没有检测到,也就导致没有匹配ID
  2. 原因:通常是因为遮挡导致没检测到。或者是由于分辨率较低导致的
  3. 现有解决方法:线性插值
    1. 问题:插值过程中忽略了运动信息,导致不准确
  4. 我们提出的方法:高斯平滑插值算法(GSI)
    1. 具体方法:使用高斯过程回归算法来修复插值边界框。
    2. 优点:GSI是一种检测噪声的滤波器,可以产生更准确和稳定的定位。

翻译

AFLink和GSI都是轻量级、即插即用、模型无关和外观无关的模型,这对本研究是有利且适合的。大量实验表明,它们可以显着改进 StrongSORT 和其他最先进的跟踪器,例如 CenterTrack [66]、TransTrack [45] 和 FairMOT [64],每个图像的运行速度分别为为 1.7 ms (StrongSORT)和 7.1 ms (其他),分别在 MOT17 上。特别是,通过将 AFLink 和 GSI 应用到 StrongSORT,我们获得了一个更强的跟踪器,称为 StrongSORT++。它在各种基准测试(即 MOT17、MOT20、DanceTrack [44] 和 KITTI [19])上取得了 SOTA 结果。图 1 显示了最先进的跟踪器与我们提出的 StrongSORT 和 StrongSORT++ 在 MOT17 和 MOT20 测试集上的 IDF1-MOTA-HOTA 比较。

在这里插入图片描述

图1:IDF1-MOTA-HOTA 在 MOT17 和 MOT20 测试集上将最先进的跟踪器与我们提出的 StrongSORT 和 StrongSORT++ 进行比较。横轴为MOTA,纵轴为IDF1,圆的半径为HOTA。 “*”代表我们的转载版本。我们的 StrongSORT++ 实现了最佳的 IDF1 和 HOTA 以及可比的 MOTA 性能。

精读

展示这两个模型的优势:

  1. 轻量级、即插即用、模型无关和外观无关、效果显著
  2. StrongSORT++取得了SOTA结果

发现ByteTrack很不错,完了之后看看论文!

翻译

我们的工作贡献总结如下:

  • 我们提出了 StrongSORT,它为 DeepSORT 配备了高级模块(即检测器和嵌入模型)和一些推理技巧。它可以作为其他 MOT 方法的强有力且公平的基线,这对学术界和工业界都很有价值。
  • 我们提出了两种新颖且轻量级的算法:AFLink 和GSI,它们可以插入各种跟踪器中,以可忽略的计算成本提高其性能。
  • 广泛的实验旨在证明所提出方法的有效性。此外,所提出的 StrongSORT 和 StrongSORT++ 在多个基准上实现了 SOTA 性能,包括 MOT17、MOT20、DanceTrack 和 KITTI。

2.相关工作

A.单独和联合跟踪器(改进DeepSORT)

翻译

MOT方法可以分为单独跟踪器和联合跟踪器。单独的跟踪器[60,3,55,4,32,21]遵循检测跟踪范式,首先定位目标,然后将其与外观、运动等信息相关联。受益于对象检测的快速发展[ 39,38,18],单独的跟踪器已广泛应用于 MOT 任务中。最近,已经提出了几种联合跟踪方法[57,59,28,51]来联合训练检测和其他组件,例如运动、嵌入和关联模型。这些跟踪器的主要优点是计算成本低和性能相当。

同时,最近的几项研究[42,43,63,7]放弃了外观信息,仅依靠高性能检测器和运动信息,在MOTChallenge基准上实现了高运行速度和最先进的性能[31, 9] ]。然而,放弃外观特征会导致在更复杂的场景中鲁棒性较差。在本文中,我们采用类似DeepSORT的[55]范式,并从各个方面为其配备先进技术,以证实这个经典框架的有效性。

精读

**MOT方法分类:**单独的跟踪器(检测跟踪分离)、联合跟踪器(检测跟踪不分离)

单独的跟踪器:

  1. 方法:先定位目标,再根据外观运动信息进行帧间关联
  2. 优点:检测高速发展

联合跟踪器:

  1. 方法:联合训练检测和其他组件
  2. 优点:计算成本低

不使用外观信息的几项研究特点:

  1. 放弃了外观信息,仅使用高性能检测器和运动信息
  2. 复杂场景中鲁棒性 较差

我们的研究特点:

  1. 基于DeepSORT(也就是使用了外观信息)
  2. 从各个方面为DeepSORT配备先进的技术

B. MOT中的全局链接(AFLink)

翻译

关联缺失是 MOT 任务中的一个重要问题。为了利用丰富的全局信息,有几种方法使用全局链接模型来细化跟踪结果[11,47,50,35,58]。他们首先使用时空和/或外观信息生成准确但不完整的轨迹。然后,通过离线方式探索全局信息来链接这 3 个轨迹。 TNT [50] 设计了一个多尺度 TrackletNet 来测量两个 tracklet 之间的连接性。它使用多尺度卷积核在统一网络中对运动和外观信息进行编码。 TPM [35]提出了一个轨迹平面匹配过程,将容易混淆的轨迹推入不同的轨迹平面,这有助于减少轨迹匹配步骤中的混乱。 ReMOT [58] 将不完美的轨迹分割成轨迹,然后将它们与外观特征合并。 GIAOTracker [11] 提出了一种复杂的全局链接算法,该算法使用改进的 ResNet50-TP 模型 [16] 对轨迹外观特征进行编码,并将轨迹与空间和时间成本关联起来。尽管这些方法取得了显着的改进,但它们依赖于外观特征,这带来了较高的计算成本。相比之下,所提出的 AFLink 模型仅利用运动信息来预测两个轨迹之间的链接置信度。通过设计适当的模型框架和训练流程,AFLink 可以让各种最先进的跟踪器受益,而额外成本可以忽略不计。

AFLink 与 LGMTracker [48] 有着相似的动机,后者也将轨迹与运动信息相关联。 LGMTracker 设计了一种有趣但复杂的重建嵌入策略,基于 GCN 和 TGC 模块进行轨迹关联,旨在解决潜在空间相异的问题。然而,AFLink 表明,通过仔细设计框架和训练策略,更简单、更轻量级的模块仍然可以很好地工作。特别是,AFlink 在 MOT17 上训练仅需 10 秒以上,测试仅需 10 秒。

精读

全局链接模型:

  1. 方法:首先使用时空或外观信息生成准确但不完整的轨迹。然后通过离线的方式链接这些轨迹
  2. 例子:
    1. TNT方法:设计了多尺度TrackletNet 测量两个不完整轨迹之间的连接性。使用多尺度卷积核在统一网格中对运动和外观信息进行编码。
    2. TPM 方法:提出了一个轨迹平面的概念。将容易混淆的轨迹推入不同的轨迹平面。
    3. ReMOT 方法:将不完美的整体的轨迹分割成多个小的完美的轨迹,然后再通过外观特征进行合并
    4. GIAOTracker 方法:使用ResNet50-TP模型编码了完美部分轨迹的外观特征,然后使用时空成本将他们关联起来。
  3. 问题:依赖于外观特征,计算成本较高

我们的全局链接模型:

  1. 特点:仅利用运动信息预测两个完美部分轨迹之间的链接置信度。
  2. 方法:LGMTracker(也是仅使用运动信息)设计的复杂,我们设计的更简单、更轻量
  3. 效果:AFlink 在 MOT17 上训练仅需十几秒,测试仅需十秒(离线模型)。

C. MOT中的插值(GSI)

翻译

线性插值被广泛用于填补丢失检测的恢复轨迹中的空白[36,22,33,37,63,11]。尽管线性插值简单有效,但它忽略了运动信息,这限制了恢复的边界框的准确性。为了解决这个问题,人们提出了几种有效利用时空信息的策略。 V-IOUTracker [5] 通过在发生丢失检测时回退到单对象跟踪来扩展 IOUTracker [4]。 MAT [20]通过采用循环伪观测轨迹填充策略来非线性平滑线性插值轨迹。需要额外的相机运动补偿(CMC)模型[13]和卡尔曼滤波器[24]来预测丢失的位置。 MAATrack [43] 通过仅应用 CMC 模型来简化它。所有这些方法都应用额外的模型,即单目标跟踪器、CMC 和卡尔曼滤波器,以换取性能提升。相反,我们建议基于高斯过程回归(GPR)算法[54]对非线性运动进行建模。在没有额外耗时组件的情况下,我们提出的 GSI 算法在准确性和效率之间实现了良好的权衡。

与我们的 GSI 最相似的工作是 [67],它使用 GPR 算法来平滑未插值的轨迹,以实现准确的速度预测。然而,它适用于监控视频中的事件检测任务。相比之下,我们研究 MOT 任务并采用 GPR 来细化插值定位。此外,我们提出了一个自适应平滑因子,而不是像[67]中那样预设超参数。

精读

线性插值模型:

  1. 特点:
    1. 简单有效
    2. 忽略了运动信息,限制了恢复边界框的准确性
  2. 用途:填补由于丢失检测而导致的轨迹空白
  3. 别人提出的解决:
    1. IOUTracker方法:当发生检测丢失时,将多目标检测回退到单目标检测,以此扩展IOUTracker(也是一片论文。这俩都没看,于是不懂啥意思)
    2. MAT 方法:通过采用循环伪观测轨迹填充策略来非线性平滑线性插值轨迹。(没看,不懂)
    3. MAATrack 方法:通过仅应用 CMC 模型来简化它。所有这些方法都应用额外的模型,即单目标跟踪器、CMC 和卡尔曼滤波器,以换取性能提升。(没看,不懂)
    4. 【67】方法:和我们的方法最像。他们使用GPR,但预设超参数。我们使用GPR但自适应参数。且我俩的应用场景不同。(没看,不懂)

我们的高斯平滑插值算法(GSI):

  1. 方法:基于高斯过程回归(GPR)算法对非线性运动进行建模(不懂。后面再看,这里略过)
  2. 效果:在准确率和效率之间形成了良好的平衡。

3. StrongSORT

在本节中,我们将介绍将 DeepSORT [55] 升级到 StrongSORT 的各种方法。具体来说,我们在 A 节中回顾了 DeepSORT,并在 B 节中介绍了 StrongSORT。值得注意的是,我们在本节中并不声称有任何算法新颖性。相反,我们在这里的贡献在于清晰地理解 DeepSORT 并为其配备各种先进技术以呈现强大的 MOT 基线。

A.回顾DeepSORT

翻译

我们将 DeepSORT 简单总结为一个双分支框架,即具有外观分支和运动分支,如图 2 的上半部分所示。在外观分支中,给定每帧中的检测,深度外观描述符( simple CNN),在行人重识别数据集 MARS [65] 上进行预训练,用于提取他们的外观特征。它利用特征库机制来存储每个 tracklet 最后 100 帧的特征。随着新检测的到来,第 i 个轨迹的特征库 Bi 与第 j 个检测的特征 fj 之间的最小余弦距离计算为

在这里插入图片描述

该距离在关联过程中用作匹配成本。在运动分支中,卡尔曼滤波器算法[24]负责预测当前帧中轨迹的位置。它通过两阶段过程工作,即状态预测和状态更新。在状态预测步骤中,它将当前状态预测为:

在这里插入图片描述

其中 ˆ xk−1 和 Pk−1 是时间步 k − 1 处状态的均值和协方差,ˆ x′ k 和 P ′ k 是时间步 k 处的估计状态,Fk 是状态转移模型,Qk是过程噪声的协方差。在状态更新步骤中,卡尔曼增益根据估计状态 P ′ k 和观测噪声 Rk 的协方差计算为:

在这里插入图片描述

其中 HT k 是观测模型,它将状态从估计空间映射到观测空间。然后,使用卡尔曼增益K来更新最终状态:

在这里插入图片描述

其中 zk 是时间步 k 处的测量值。考虑到轨迹的运动状态和新出现的检测,马氏距离用于测量它们之间的时空差异。 DeepSORT 将此运动距离作为门来过滤掉不太可能的关联。随后,提出了匹配级联算法,将关联任务作为一系列子问题而不是全局分配问题来解决。核心思想是对更频繁出现的对象给予更高的匹配优先级。每个关联子问题都使用匈牙利算法来解决[27]。

在这里插入图片描述

图 2:DeepSORT 和 StrongSORT 的框架和性能比较。根据 YOLOX [18] 预测的检测结果在 MOT17 验证集上评估性能。

精读

该节以一个更加具有概括性的角度总结了DeepSORT,并利用图2与StrongSORT进行了比较。

将DeepSORT分为两个分支:外观信息处理分支和运动信息处理分支。

具体的DeepSORT论文解读在 多目标跟踪之DeepSORT论文(翻译+精读)

外观信息处理分支:

  1. 深度外观描述符( simple CNN)
  2. 利用特征库机制来存储每个 tracklet 最后 100 帧的特征
  3. 计算最小余弦距离

运动信息处理分支:

  1. 卡尔曼滤波器预测当前帧中轨迹的位置
  2. 使用卡尔曼增益K来更新最终状态
  3. 考虑轨迹的运动状态和新出现的检测,马氏距离用于测量它们之间的时空差异。

级联匹配:

  1. 对更频繁出现的对象给予更高的匹配优先级
  2. 二次匹配:IOU匹配

B.StrongSORT

翻译

我们对 DeepSORT 的改进包括高级模块和一些推理技巧,如图 2. 高级模块的下半部分所示。 DeepSORT 使用[60]中提出的优化的 Faster RCNN [39] 作为检测器,并训练一个简单的 CNN 作为嵌入模型。相反,我们在[63]之后用YOLOX-X [18]替换了检测器,为了清楚起见,图2中没有显示。此外,应用更强的外观特征提取器BoT[30]来代替原来的简单CNN,可以提取更多的判别性特征。

精读

StrongSORT改进:

  1. 检测器:Faster RCNN------>YOLOX-X
  2. 外观特征提取器:simple CNN------>BoT
EMA翻译

EMA。虽然 DeepSORT 中的特征库机制可以保留长期信息,但它对检测噪声很敏感[11]。为了解决这个问题,我们用[52]中提出的特征更新策略替换特征库机制,该策略以指数移动平均(EMA)方式更新帧 t 处第 i 个轨迹的外观状态 et i ,如下所示:

在这里插入图片描述

其中 f t i 是当前匹配检测的外观嵌入,α = 0.9 是动量项。 EMA更新策略利用帧间特征变化的信息,可以抑制检测噪声。实验表明,该方法不仅提高了匹配质量,而且减少了匹配时间。

EMA精读

指数移动平均EMA:

  1. 旧方法:100特征库机制。但对检测噪声很敏感

  2. 新方法:使用特征更新策略替换特征库机制。

    1. 方法解释:使用公式7根据上一帧的eit-1更新第t帧的第i个轨迹的外观状态eit,fit是当前已匹配的检测的外观特征。
    2. 优点:利用帧间特征变化,来抑制噪声。可以提高匹配质量并减少匹配时间。
ECC翻译

相机移动存在于多个基准中 [31,44,19]。与[20,43,25,21]类似,我们采用增强相关系数最大化(ECC)[13]模型进行相机运动补偿。它是一种参数化图像对齐技术,可以估计相邻帧之间的全局旋转和平移。具体来说,基于以下标准来量化扭曲变换的性能:

在这里插入图片描述

其中 ‖ · ‖ 表示欧几里得范数,p 是扭曲参数,ir 和 iw§ 是参考(模板)图像 ir 和扭曲图像 iw§ 的零均值版本。然后,利用所提出的前向加性迭代算法或逆向合成迭代算法,通过最小化 EECC § 来解决图像对齐问题。由于其效率和有效性,ECC 被广泛用于补偿 MOT 任务中相机运动引起的运动噪声。

ECC精读

增强相关系数最大化模型(ECC):

  1. 适用问题:相机移动问题。采用ECC进行相机运动的补偿
  2. 技术简介:ECC是一种参数化图像对齐技术,可以估计相邻帧之间的全局旋转和平移
  3. 公式解释:没看论文,数学公式,不懂。总之是一个量化扭曲变换的公式。
NSA卡尔曼翻译

普通卡尔曼滤波器很容易受到攻击。比如这些问题:低质量的检测[43]和对检测噪声尺度信息的忽略[11]。为了解决这个问题,我们借鉴了 GIAOTracker [11] 的 NSA Kalman 算法,该算法提出了一个自适应计算噪声协方差 ̃ Rk 的公式:

在这里插入图片描述

其中Rk是预设的常数测量噪声协方差,ck是状态k处的检测置信度分数。直观上,当噪声较少时,检测得分 ck 较高,从而导致 ̃ Rk 较低。根据公式4-6,较低 ̃Rk意味着检测在状态更新步骤中将具有较高的权重,反之亦然。这有助于提高更新状态的准确性。

NSA卡尔曼精读

普通卡尔曼滤波器的问题:

  1. 低质量的检测
  2. 对检测噪声信息的忽略

NSA卡尔曼:

  1. 源自:GIAOTracker 这个论文
  2. 贡献:提出了自适应计算噪声协方差的公式
  3. 公式解释:利用计算出来的Rk和检测置信度ck来得到一个新的自适应的 ̃Rk。检测置信度越高, ̃ Rk越低,则检测在状态更新步骤中将具有较高的权重
Motion Cost翻译

DeepSORT在第一个关联阶段仅使用外观特征距离作为匹配成本,其中运动距离仅用作门。相反,我们用外观和运动信息来解决分配问题,类似于[52, 64]。成本矩阵C是出现成本Aa和运动成本Am的加权和,如下:

在这里插入图片描述

其中权重因子 λ 设置为 0.98,如[52, 64]中所示。

Motion Cost精读

**原始DeepSORT:**在第一个关联阶段仅使用外观信息作为匹配成本,而运动信息仅用作门。

**我们:**用外观信息和运行信息的加权和来作为成本矩阵。

Vanilla Matching翻译

一个有趣的发现是,尽管匹配级联算法在 DeepSORT 中并不简单,但随着跟踪器变得更强大,它限制了性能。原因是,随着跟踪器变得更强,它对令人困惑的关联也变得更加鲁棒。因此,额外的先验约束限制了匹配精度。我们通过简单地用普通的全局线性分配替换匹配级联来解决这个问题。

Vanilla Matching精读

我们将级联匹配替换为了全局线性分配:

原因:额外的先验约束限制了匹配精度。于是就用简单普通的全局线性分配来代替。

4.StrongSORT++

我们在第三节中提出了一个强有力的基线。在本节中,我们介绍两种轻量级、即插即用、模型无关、外观无关的算法,即AFLink和GSI,以进一步解决关联失败和漏检的问题。我们将最终方法称为 StrongSORT++,它将 StrongSORT 与这两种算法集成在一起。

A.AFLink

翻译

Tracklet 的全局链接在多个作品中使用,以追求高度准确的关联。然而,它们通常依赖于计算成本昂贵的组件,并且有大量的超参数需要微调。例如,GIAOTracker [11] 中的链接算法利用改进的 ResNet50-TP [16] 来提取轨迹 3D 特征并执行与附加空间和时间距离的关联。它需要设置六个超参数,即三个阈值和三个权重因子,这会导致大量的调优实验,鲁棒性较差。此外,过度依赖外观特征可能容易受到遮挡的影响。受此启发,我们设计了一个无外观模型 AFLink,仅依靠时空信息来预测两个轨迹之间的连接性。

图 3 显示了 AFLink 模型的两分支框架。它采用两个轨迹 Ti 和 Tj 作为输入,其中 在这里插入图片描述
由帧 id f * k 和位置 (最近 N = 30 帧的 x* k, y* k)。零填充用于短于 30 帧的轨迹。应用时间模块通过沿时间维度与 7 × 1 内核进行卷积来提取特征,该内核由四个“Conv-BN-ReLU”层组成。然后,融合模块(具有 BN 和 ReLU 的单个 1 × 3 卷积层)用于集成来自不同特征维度(即 f、x 和 y)的信息。得到的两个特征图被池化并压缩为特征向量,然后连接起来,其中包含丰富的时空信息。最后,使用 MLP 来预测关联的置信度得分。请注意,时间模块和融合模块中两个分支的权重不共享。

在这里插入图片描述

在训练期间,关联过程被制定为二元分类任务。然后,用二元交叉熵损失对其进行优化,如下:

在这里插入图片描述

其中 xn ∈ [0, 1] 是样本对 n 的预测关联概率,yn ∈ {0, 1} 是真实标签。

在关联过程中,我们过滤掉具有时空约束的不合理轨迹对。然后,使用预测的连接得分将全局链接作为线性分配任务[27]进行求解。

精读

现有全局链接模型问题:

  1. 依赖于计算成本昂贵的组件
  2. 有大量的超参数需要微调
  3. 过度依赖外观特征可能容易受到遮挡的影响

我们的无外观模型 AFLink:

  1. 模型结构:
  2. 时间模块:由四个“Conv-BN-ReLU”层组成。沿着时间维度提取特征。
  3. 融合模块:具有 BN 和 ReLU 的单个 1 × 3 卷积层。集成来自不同特征维度的信息
  4. 连接:得到的两个特征图被池化并压缩为特征向量,然后连接起来,其中包含丰富的时空信息。
  5. 预测:使用 MLP 来预测关联的置信度得分。
  6. 模型分类:二分类任务
  7. 损失及优化:式11的二元交叉熵损失

B.GSI

翻译

插值被广泛用于填补由于漏检而造成的轨迹空白。线性插值因其简单性而广受欢迎;然而,它的准确性受到限制,因为它不使用运动信息。尽管已经提出了几种策略来解决这个问题,但它们通常会引入额外的耗时模块,例如单对象跟踪器、卡尔曼滤波器和ECC。相比之下,我们提出了一种轻量级插值算法,采用高斯过程回归[54]来建模非线性运动。

我们将第 i 个轨迹的 GSI 模型制定如下:

在这里插入图片描述

其中 t ∈ F 是帧 id,pt ∈ P 是帧 t 处的位置坐标变量(即 x, y, w, h),E∼ N (0, σ2) 是高斯噪声。给定跟踪和线性插值轨迹 在这里插入图片描述
,长度为 L,非线性运动建模的任务通过拟合函数 f (i) 来解决。我们假设它服从高斯过程:

在这里插入图片描述

其中 在这里插入图片描述
是径向基函数核。根据高斯过程的性质,给定一个新的帧集 F*,其平滑位置 P* 预测为

在这里插入图片描述

其中 K(·,·) 是基于 k(·,·) 的协方差函数。

此外,超参数 λ 控制轨迹的平滑度,这应该与其长度有关。我们简单地将其设计为适应长度l的函数,如下所示:

在这里插入图片描述

其中 τ 根据消融实验设置为 10。

图 4 举例说明了 GSI 和线性插值 (LI) 之间的差异。原始跟踪结果(橙色)通常包含噪声抖动,LI(蓝色)忽略运动信息。我们的 GSI(红色)通过使用自适应平滑因子平滑整个轨迹来同时解决这两个问题。

在这里插入图片描述

精读

现有插值方法:

  1. 应用:填补由于漏检而造成的轨迹空白
  2. 问题:
    1. 由于不使用运动信息,导致准确性不高
    2. 解决办法会增加耗时

我们的采用高斯过程回归的GSI方法:

  1. 简介:
    1. 用式12预测第i个轨迹在t帧的位置。f函数是重点。
    2. 假设函数f服从高斯过程。
    3. 根据高斯过程的性质,给定帧集,预测其平滑位置。
  2. 公式解释:数学知识,太硬核了,没看论文,不懂。
  3. 优点:解决了原始跟踪结果包含的噪声抖动,和线性插值忽略的运动信息。

5.实验

A.设置

a.数据集翻译

我们在“私人检测”协议下对 MOT17 [31] 和 MOT20 [9] 数据集进行实验。 MOT17 是 MOT 的流行数据集,由用于训练的 7 个序列和 5,316 帧以及用于测试的 7 个序列和 5919 帧组成。 MOT20 是一个高度拥挤的挑战性场景数据集,有 4 个序列和 8,931 帧用于训练,4 个序列和 4,479 帧用于测试。对于消融研究,我们采用 MOT17 训练集中每个序列的前半部分进行训练,后半部分进行验证,如下 [66, 63]。我们使用 DukeMTMC [40] 来预训练我们的外观特征提取器。我们在 CrowdHuman 数据集 [41] 和 MOT17 半训练集上训练检测器,以按照 [66,63,45,56,61] 进行消融。我们添加 Cityperson [62] 和 ETHZ [12] 进行测试,如 [63,52,64,28] 中所示。

我们还在 KITTI [19] 和 DacneTrack [44] 上测试 StrongSORT++。 KITTI 是一个与自动驾驶任务相关的流行数据集。它可用于行人和汽车跟踪,由 21 个训练序列和 29 个测试序列组成,帧速率相对较低,为 10 FPS。 DanceTrack 是最近提出的一个用于多人跟踪的数据集,它鼓励更多的 MOT 算法,这些算法较少依赖于视觉辨别,而更多地依赖于运动分析。它由100个集体舞蹈视频组成,其中人类有着相似的外表,但动作特征却不同。

a.数据集精读
数据集概述
  1. MOT17
    • 用途:流行的多目标跟踪(MOT)数据集。
    • 组成
      • 训练集:7个序列,共5,316帧。
      • 测试集:7个序列,共5,919帧。
    • 特点:广泛用于MOT算法的评估与训练。
  2. MOT20
    • 用途:挑战性较高的多目标跟踪数据集,适用于拥挤场景。
    • 组成
      • 训练集:4个序列,共8,931帧。
      • 测试集:4个序列,共4,479帧。
    • 特点:包含高度拥挤的场景,对MOT算法提出更高要求。
  3. DukeMTMC:
    • 用途:用于预训练外观特征提取器。
    • 特点:提供丰富的行人图像,有助于提升特征表示能力。
  4. CrowdHuman:
    • 用途:与MOT17半训练集一同用于训练检测器。
    • 特点:包含大量人群图像,适合检测器在复杂场景下的训练。
  5. Cityperson和ETHZ:
    • 用途:作为额外的测试数据集,评估算法的泛化能力。
    • 特点:提供不同场景下的行人图像,有助于全面评估算法性能。
  6. KITTI:
    • 用途:与自动驾驶任务相关的数据集,用于测试StrongSORT++。
    • 组成:
      • 训练序列:21个。
      • 测试序列:29个。
      • 帧速率:10 FPS。
    • 特点:包含行人和汽车跟踪任务,适用于评估算法在自动驾驶场景下的表现。
  7. DanceTrack:
    • 用途:最近提出的多人跟踪数据集,鼓励依赖运动分析的算法。
    • 组成:100个集体舞蹈视频。
    • 特点:人类外表相似但动作特征不同,对MOT算法的运动分析能力提出挑战。
实验设置
  • 消融研究:采用MOT17训练集中每个序列的前半部分进行训练,后半部分进行验证,以评估不同组件对算法性能的影响。
  • 预训练与训练:
    • 使用DukeMTMC预训练外观特征提取器。
    • 在CrowdHuman数据集和MOT17半训练集上训练检测器。
  • 测试集:在MOT17、MOT20、Cityperson、ETHZ、KITTI和DanceTrack等数据集上进行测试,以全面评估StrongSORT++的性能和泛化能力。

通过以上实验设置和数据集使用,可以对StrongSORT++进行充分的训练和评估,从而验证其在不同场景下的表现。

b. 评价指标翻译

指标。我们使用 MOTA、IDs、IDF1、HOTA、AssA、DetA 和 FPS 等指标来评估跟踪性能 [2, 40, 29]。 MOTA是基于FP、FN和ID计算的,更注重检测性能。相比之下,IDF1更好地衡量了ID匹配的一致性。 HOTA 是检测分数 DetA 和关联分数 AssA 的显式组合,它将执行准确检测和关联的效果平衡为单个统一指标。此外,它评估预测边界框和 GT 边界框之间的许多不同的不同检测相似性值(0.05 到 0.95,间隔为 0.05),而不是设置单个值(即 0.5),例如在 MOTA 和 IDF1 中,并且更好考虑定位精度。

b. 评价指标精读

评价指标:

MOTA、IDs、IDF1、HOTA、AssA、DetA 和 FPS

  1. MOTA是基于FP、FN和ID计算的,更注重检测性能。
  2. IDF1更好地衡量了ID匹配的一致性。
  3. HOTA 是检测分数 DetA 和关联分数 AssA 的显式组合,它将执行准确检测和关联的效果平衡为单个统一指标。

此外这些指标评估预测边界框和 GT 边界框之间的许多不同的不同检测相似性值(0.05 到 0.95,间隔为 0.05),而不是设置单个值(即 0.5),例如在 MOTA 和 IDF1 中,可以更好考虑定位精度。

c. 实施细节翻译

实施细节。我们在本节中介绍默认的实现细节。对于检测,我们采用 YOLOX-X [18] 作为检测器,以改进时间精度权衡。训练计划与[63]中的类似。推论中,非极大值抑制(NMS)的阈值设置为0.8,检测置信度的阈值设置为0.6。对于 StrongSORT,匹配距离阈值是 0.45,ECC 的扭曲模式是 MOTION EUCLIDEAN,EMA 中的动量项 α 是 0.9,外观成本权重因子 λ 是 0.98。对于GSI,插值允许的最大间隙为20帧,超参数τ为10。

对于 AFLink,时间模块由四个具有 7 × 1 内核和 {32, 64, 128, 256} 输出通道的卷积层组成。每个卷积后面跟着一个 BN 层和一个 ReLU 激活层。融合模块包括1×3卷积、BN和ReLU。它不会改变通道数量。分类器是一个 MLP,具有两个全连接层和插入在中间的 ReLU 层。训练数据是通过将带注释的轨迹切割成带有随机时空噪声的轨迹来生成的,正负样本的比例为 1:3。我们使用 Adam 作为优化器 [26],使用交叉熵损失作为目标函数,并使用余弦退火学习率计划对其进行 20 个 epoch 的训练。整个训练过程仅需10多秒。推理时,使用30帧的时间距离阈值和75个像素的空间距离阈值来过滤掉不合理的关联对。最后,如果预测分数大于 0.95,则考虑关联。

所有实验均在具有单个 V100 的服务器计算机上进行。

c. 实施细节精读
检测器设置
  • 检测器选择:采用YOLOX-X [18] 作为检测器,以优化时间精度权衡。
  • 训练计划:与[63]中的训练计划相似。
  • 推论设置:
    • 非极大值抑制(NMS)阈值:0.8
    • 检测置信度阈值:0.6
StrongSORT 参数
  • 匹配距离阈值:0.45
  • ECC扭曲模式:MOTION EUCLIDEAN
  • EMA动量项(α):0.9
  • 外观成本权重因子(λ):0.98
GSI 参数
  • 插值允许的最大间隙:20帧
  • 超参数τ:10
AFLink 网络架构与训练
  • 时间模块:
    • 卷积层数:4层
    • 内核大小:7×1
    • 输出通道数:{32, 64, 128, 256}
    • 后续层:BN层和ReLU激活层
  • 融合模块:
    • 卷积层:1×3
    • 后续层:BN层和ReLU层
    • 通道数保持不变
  • 分类器:
    • 类型:MLP(多层感知机)
    • 结构:两个全连接层,中间插入ReLU层
  • 训练数据生成:
    • 方法:将带注释的轨迹切割成带有随机时空噪声的轨迹
    • 正负样本比例:1:3
  • 优化器:Adam [26]
  • 损失函数:交叉熵损失
  • 学习率计划:余弦退火学习率计划
  • 训练周期:20个epoch
  • 训练时间:仅需10多秒
  • 推理设置:
    • 时间距离阈值:30帧
    • 空间距离阈值:75个像素
    • 预测分数阈值:0.95(用于考虑关联)
实验环境
  • 硬件:具有单个V100的服务器计算机

这些详细的实施参数和设置确保了StrongSORT及其变体(如GSI和AFLink)在不同数据集上的有效训练和评估。

B.消融研究

StrongSORT 的消融研究翻译

表 I 总结了从 DeepSORT 到 StrongSORT 的路径:

  1. BoT:用 BoT 替换原始特征提取器导致 IDF1 (+2.2) 显着改进,表明关联质量受益于更具辨别力的外观特征。
  2. ECC:CMC模型导致IDF1(+0.2)和MOTA(+0.3)略有增加,这意味着它有助于提取更精确的运动信息。
  3. NSA:NSA 卡尔曼滤波器改进了 HOTA (+0.4),但没有改进 MOTA 和 IDF1。这意味着它提高了定位精度。
  4. EMA:EMA特征更新机制不仅带来了优越的关联性(+0.4 IDF1),而且带来了更快的速度(+1.2 FPS)。
  5. MC:与外观和运动成本辅助关联相匹配(+0.8 IDF1)。
  6. woC:对于更强的跟踪器,具有冗余先验信息的匹配级联算法限制了跟踪精度。通过简单地采用普通匹配方法,IDF1 得到了很大的提高 (+1.4)。

在这里插入图片描述

AFLink 和 GSI 的消融研究翻译

我们将 AFLink 和 GSI 应用在六个不同的跟踪器上,即三个版本的 StrongSORT 和三个最先进的跟踪器(CenterTrack [66]、TransTrack [45] 和 FairMOT [64])。他们的结果如表二所示。每个跟踪器结果的第一行是原始性能。 AFLink(第二线)的应用为不同的跟踪器带来了不同程度的改进。具体来说,由于关联失败,较差的跟踪器往往会从 AFLink 中受益更多。特别是CenterTrack的IDF1提高了3.7。每个跟踪器的第三行结果证明了 GSI 对于检测和关联的有效性。与 AFLink 不同,GSI 在较强的跟踪器上效果更好,但在较差的跟踪器中可能会因大量错误关联而感到困惑。

在这里插入图片描述

vanilla matching的消融研究翻译

我们在表 III 中展示了不同基线上的匹配级联算法和普通匹配之间的比较。结果表明,匹配级联算法对 DeepSORT 有很大好处。但随着基线跟踪器的逐渐增强,其优势越来越小,甚至对跟踪精度有害。具体来说,对于 StrongSORTv5,通过用普通匹配替换匹配级联,它可以在 IDF1 上带来 1.4 的增益。这使我们得出以下有趣的结论:尽管匹配级联中的先验假设可以减少较差跟踪器中令人困惑的关联,但这种额外的约束反而会限制较强跟踪器的性能。

在这里插入图片描述

GSI 的附加分析翻译

速度估计对于一些下游任务至关重要,例如动作分析[10],并且有利于智能交通系统(ITS)[14]的建设。为了测量不同插值算法在速度估计任务上的性能,我们比较了应用线性插值 (LI) 和高斯平滑插值 (GSI) 后轨迹之间的归一化速度,如图 5 所示。具体来说,是来自 DeepSORT 在 MOT17 验证中的 6 个轨迹集进行采样。 x 坐标和 y 坐标分别表示帧 ID 和归一化速度。结果表明,具有 LI 的轨迹速度剧烈抖动(红色),这主要是由于检测噪声造成的。相反,具有 GSI 的轨迹具有更稳定的速度(蓝色)。这给了我们理解GSI的另一个视角:GSI是一种检测噪声滤波器,可以产生更准确、更稳定的定位。此功能有利于速度估计和其他相关任务。

在这里插入图片描述

C.主要结果

我们在 MOT17、MOT20、DanceTrack 和 KITTI 测试集上将 StrongSORT、StrongSORT+ (StrongSORT + AFLink) 和 StrongSORT++ (StrongSORT + AFLink + GSI) 与最先进的跟踪器进行比较,如表 IV、V、VI 所示和 VII 分别。值得注意的是,公平地比较 FPS 是很困难的,因为每种方法声称的速度取决于实现它们的设备,并且检测所花费的时间通常不包括逐个检测跟踪器。

MOT17翻译

StrongSORT++ 在 MOT17 的 HOTA、IDF1、AssA 和 DetA 指标方面排名第一,在 MOTA 和 ID 方面排名第二。特别是,它产生了准确的关联,并且大大优于第二性能跟踪器(即+2.1 IDF1和+2.1 AssA)。我们使用与消融研究中相同的超参数,并且没有像[63]中那样仔细调整每个序列。测试集的稳步改进证明了我们方法的稳健性。值得注意的是,我们的 DeepSORT 复制版本(具有更强的检测器 YOLOX 和几个调整的超参数)在基准测试中也表现良好,这证明了类似 DeepSORT 的跟踪范例的有效性。

在这里插入图片描述

在 MOT17 测试集上与最先进的 MOT 方法进行比较。 “*”代表我们的转载版本。 “(w/o LI)”表示放弃离线线性插值过程。每个指标的两个最佳结果以粗体显示,并以红色和蓝色突出显示。

MOT20翻译

MOT20中的数据取自更拥挤的场景。高遮挡意味着丢失检测和关联的风险很高。 StrongSORT++ 在 HOTA、IDF1 和 AssA 指标方面仍然排名第一。与其他跟踪器相比,它获得的 ID 明显更少。请注意,我们使用与 MOT17 中完全相同的超参数,这意味着我们方法的泛化能力。与几个跟踪器相比,其检测性能(MOTA 和 DetA)稍差。我们认为这是因为我们使用了与 MOT17 相同的检测分数阈值,这导致了许多检测缺失。具体来说,我们的 StrongSORT++ 的指标 FN(漏报数)为 117,920,而 ByteTrack [63] 的指标仅为 87,594。

在这里插入图片描述

在 MOT20 测试集上与最先进的 MOT 方法进行比较。 “*”代表我们的转载版本。 “(w/o LI)”表示放弃离线线性插值过程。每个指标的两个最佳结果以粗体显示,并以红色和蓝色突出显示。

DanceTrack翻译

我们的 StrongSORT++ 还在 DanceTrack 基准测试中的大多数指标上取得了最佳结果。由于该数据集较少关注外观特征,因此我们在这里放弃与外观相关的优化,即 BoT 和 EMA。 NMS阈值设置为0.7,匹配距离为0.3,AFLink预测阈值为0.9,GSI插值阈值为5帧。为了公平比较,我们使用与 ByteTrack [63] 相同的检测并取得更好的结果,这证明了我们方法的优越性。

在这里插入图片描述

在 DanceTrack 测试集上与最先进的 MOT 方法进行比较。每个指标的两个最佳结果以粗体显示,并以红色和蓝色突出显示。

KITTI翻译

在KITTI数据集上,我们使用与PermaTrack [46]和OC-SORT [7]相同的检测结果进行公平比较。结果表明,与 PermaTrack 相比,StrongSORT++ 在汽车方面取得了可比的结果,在行人方面取得了优异的性能。为简单起见,我们在这里仅应用两种技巧(即 ECC 和 NSA Kalman)和两种建议的算法(即 AFLink 和 GSI)。

在这里插入图片描述

在 KITTI 测试集上与最先进的 MOT 方法进行比较。每个指标的两个最佳结果以粗体显示,并以红色和蓝色突出显示。

D.定性结果

翻译

图6可视化了StrongSORT++在MOT17、MOT20、DanceTrack和KITTI测试集上的几个跟踪结果。 MOT17-01的结果表明了我们的方法在正常场景下的有效性。从 MOT17-08 的结果中,我们可以看到遮挡后的正确关联。 MOT17-14 的结果表明,我们的方法在相机移动时可以很好地工作。而且,MOT20-04的结果显示了StrongSORT++在严重遮挡场景下的优异性能。 DanceTrack 和 KITTI 的结果证明了 StrongSORT++ 在面对复杂运动模式和低帧率问题时的有效性。

在这里插入图片描述

StrongSORT++ 在 MOT17、MOT20、DanceTrack 和 KITTI 测试集上的示例跟踪结果可视化。盒子颜色与 ID 相对应。

E.局限性

翻译

StrongSORT 和 StrongSORT++ 仍然有一些限制。一个令人担忧的问题是,与联合跟踪器和几种无外观的单独跟踪器相比,它们的运行速度相对较低。这个问题主要是由DeepSORTlike范式引起的,它需要额外的检测器和外观模型,而提出的AFLink和GSI都是轻量级算法。此外,虽然我们的方法在 IDF1 和 HOTA 指标上表现良好,但在 MOT17 和 MOT20 上的 MOTA 略低,这主要是由于检测分数阈值较高而导致许多漏检造成的。我们相信精心设计的阈值策略或关联算法会有所帮助。对于AFLink来说,虽然在恢复丢失关联方面表现良好,但对于虚假关联问题却束手无策。具体来说,AFLink 无法将混合的 ID 轨迹分割成准确的轨迹。未来需要制定更强大、更灵活的全局链接战略。

精读

StrongSORT 和 StrongSORT++ 作为先进的多目标跟踪(MOT)算法,尽管在IDF1和HOTA等关键指标上表现优异,但仍面临一些限制和挑战,主要包括以下几个方面:

  1. 运行效率较低
    • 原因:与联合跟踪器和一些无外观的单独跟踪器相比,StrongSORT和StrongSORT++的运行速度较慢。这主要归因于它们采用了DeepSORT-like范式,该范式依赖于额外的检测器和复杂的外观模型,增加了计算负担。
    • 对比:相比之下,提出的轻量级算法如AFLink和GSI在效率上更具优势,因为它们的设计更为简洁。
  2. MOTA指标表现欠佳
    • 现象:在MOT17和MOT20等基准测试上,StrongSORT和StrongSORT++的MOTA(多目标跟踪准确度)指标略低。
    • 原因:这主要是由于检测分数阈值设置较高,导致许多目标未能被正确检测,进而造成漏检。
    • 改进方向:通过优化检测分数阈值策略或改进关联算法,有望提升MOTA指标的表现。
  3. 虚假关联问题
    • 表现:尽管AFLink在恢复丢失的关联方面表现出色,但它对于处理虚假关联问题显得力不从心。
    • 具体问题:AFLink无法有效地将混合的ID轨迹分割成准确的独立轨迹,这可能导致跟踪结果中出现错误的关联。
    • 未来方向:需要开发更强大、更灵活的全局链接策略,以应对虚假关联问题,提高跟踪的准确性和鲁棒性。

综上所述,StrongSORT和StrongSORT++在MOT领域取得了显著进展,但仍需在提高运行效率、优化MOTA指标以及解决虚假关联问题等方面继续努力。未来的研究可以围绕这些限制展开,以推动MOT技术的进一步发展。

6.结论

翻译

在本文中,我们重新审视了经典的跟踪器 DeepSORT,并使用新模块和一些推理技巧对其进行了升级。由此产生的新跟踪器 StrongSORT 可以作为 MOT 任务的新强基线。

我们还提出了两种轻量级且无外观的算法AFLink和GSI,来解决丢失关联和漏检问题。实验表明,它们可以应用于各种最先进的跟踪器并使其受益,而额外的计算成本可以忽略不计。

通过将 StrongSORT 与 AFLink 和 GSI 集成,生成的跟踪器 StrongSORT++ 在多个基准测试(即 MOT17、MOT20、DanceTrack 和 KITTI)上实现了最先进的结果。

精读

StrongSORT改进:

  • 关联方式:

    1. 匈牙利匹配(运动信息用马氏距离匹配,外观信息用余弦距离匹配)

    2. IOU匹配(二次匹配)

    3. 全局线性匹配

  • 代价:外观信息和运动信息的加权和

  • 其他:

    1. EMA:特征更新策略

    2. ECC:针对相机移动问题,估计相邻帧之间的全局旋转平移

StrongSORT++:将 StrongSORT 与 AFLink(全局链接模型:首先使用时空或外观信息生成准确但不完整的轨迹。然后通过离线的方式链接(仅利用运动信息)这些轨迹。) 和 GSI(高斯平滑插值算法:基于高斯过程回归(GPR)算法对非线性运动进行建模) 集成。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 目标检测 | yolov9 原理和介绍
  • 吐血整理 ChatGPT 3.5/4.0/4o 新手使用手册~
  • 使用 Python 进行 PDF 文件加密
  • Sed编辑器
  • 【案例49】ORA-01000:超出打开游标的最大数
  • 基于SpringBoot+Vu e.js校园疫情防控系统的设计与实现
  • Visual Studio中 生成版本号
  • LeetCode //C - 316. Remove Duplicate Letters
  • Java-ByteArrayResource和InputStream
  • RabbitMQ的介绍
  • 深入理解 Go 语言原子内存操作
  • VS工程中的ALL_BUILD、INSTALL、ZERO_CHECK简介
  • NLP位置编码
  • vue3动态引入图片不显示问题
  • [Zer0pts2020]Can you guess it?1
  • 【挥舞JS】JS实现继承,封装一个extends方法
  • Brief introduction of how to 'Call, Apply and Bind'
  • Create React App 使用
  • ECMAScript6(0):ES6简明参考手册
  • Java Agent 学习笔记
  • JavaScript的使用你知道几种?(上)
  • JavaScript异步流程控制的前世今生
  • Js基础知识(一) - 变量
  • Less 日常用法
  • MyEclipse 8.0 GA 搭建 Struts2 + Spring2 + Hibernate3 (测试)
  • mysql中InnoDB引擎中页的概念
  • Object.assign方法不能实现深复制
  • Promise初体验
  • Unix命令
  • vue-router 实现分析
  • vue的全局变量和全局拦截请求器
  • 从@property说起(二)当我们写下@property (nonatomic, weak) id obj时,我们究竟写了什么...
  • 基于Javascript, Springboot的管理系统报表查询页面代码设计
  • 在Unity中实现一个简单的消息管理器
  • 整理一些计算机基础知识!
  • #pragma data_seg 共享数据区(转)
  • #pragma 指令
  • (1) caustics\
  • (2)空速传感器
  • (23)Linux的软硬连接
  • (9)YOLO-Pose:使用对象关键点相似性损失增强多人姿态估计的增强版YOLO
  • (HAL库版)freeRTOS移植STMF103
  • (pojstep1.1.1)poj 1298(直叙式模拟)
  • (solr系列:一)使用tomcat部署solr服务
  • (二)斐波那契Fabonacci函数
  • (附表设计)不是我吹!超级全面的权限系统设计方案面世了
  • (十三)Maven插件解析运行机制
  • (学习日记)2024.04.10:UCOSIII第三十八节:事件实验
  • (一)eclipse Dynamic web project 工程目录以及文件路径问题
  • (转)Groupon前传:从10个月的失败作品修改,1个月找到成功
  • (状压dp)uva 10817 Headmaster's Headache
  • .bat批处理(六):替换字符串中匹配的子串
  • .NET 4.0中的泛型协变和反变
  • .NET/C# 在代码中测量代码执行耗时的建议(比较系统性能计数器和系统时间)...
  • .Net7 环境安装配置