当前位置：首页 > news >正文

【目标检测】36、OTA: Optimal Transport Assignment for Object Detection

news 来源：原创 2024/4/28 4:08:11

文章目录

- 一、背景
- 二、方法
- - 2.1 Optimal Transport
  - 2.2 OT for label assignment
  - 2.3 Center prior
  - 2.4 Dynamic k Estimation
- 三、效果

论文：Optimal Transport Assignment for Object Detection

代码：https://github.com/Megvii-BaseDetection/OTA

出处：CVPR2021

在这里插入图片描述
贡献：

提出了一种基于优化策略的标签分配方式，Optimal Transport Assignment (OTA)，将 gt 看做 label 供应商，anchor 看做 label 需求方。对于正样本，将分类和回归的 loss 加权和作为传输花费，对于负样本，传输花费就为分类 loss，通过最小化该花费，让网络自己学习最优的标签分配方式。
免去了手工选定参数的方式来实现标签分配，让网络自己选择每个 gt 对应的 anchor 数量，而非提前设定，也能够较好的解决模棱两可的 anchor 分配问题，提高网络对这部分 anchor 的处理效果
在 COCO 上实现了 40.7% AP

一、背景

在这里插入图片描述

Label assignment 在目标检测中非常重要，是一个预定义的规则，能够分配每个 anchor 的正负。RetinaNet 使用 IoU 来实现，FCOS 根据每个点是否在 gt box 内部来确定其正负。

这些方法忽略了一个问题：不同大小、形状、遮挡程度的目标，其 positive/negative 的判定条件应该是不同的。

所以就有一些方法使用动态的分配方法，来实现 label assignment。

ATSS 根据统计信息，来分配正负样本
Freeanchor、AutoAssign 等通过使用预测的 confidence score 来动态分配正负

作者认为，独立的给每个 gt 分配 pos/neg 不是最优的方法，缺失了上下文信息，当处理那些模棱两可的 anchor 时（如图 1 中的红色点，一个点处于多个 gt 中），上面的方法是靠手工的特征来选定属于哪个 gt 的（如 max-IoU、min-Area 等）

DETR 是首个从 global 层面考虑 label assignment 的方法，使用 Transformer 代替了 CNN 头，实现了 one-to-one 的 assignment。而 CNN 的方法，是 one-to-many 的形式，也就是一个 gt 会对应多个 anchor。

本文作者为了从 global 的层面来实现 CNN 中的 one-to-many assignment，将 label assignment 问题变成了一个 Optimal Transport（OT）问题，线性规划的一个特殊形式。

二、方法

2.1 Optimal Transport

OT 是这样的一个问题：

假设有 m 个供货商，n 个需求方
第 i 个供货商保留 $s_i$ 单元的货物，第 j 个需求方需要 $d_j$ 单元的货物
每个单元的货物从供货商 i 到需求方 j 的 Transporting cost 是 $c{ij}$
OT 问题的目标是寻找一个 transportation plan π，让这个 Transporting cost 最小

在这里插入图片描述

2.2 OT for label assignment

在目标检测的上下文中，假设有 m 个 gt，n 个 anchor，把 gt 看做 positive labels 的供货商，供应 label，anchor 看做需求方，需要 label。

把一个 unit 的 positive label 从 $gt_i$ 传递到 anchor $a_j$ 的花费为 $c^{fg}$ ，则该花费就是 cls 和 reg loss 的加权和（分类可用 Focal loss，回归可用 IoU loss 等）：

在这里插入图片描述

除过 positive assignment，还有很大一部分 anchor 是负样本，所以还引入了一个供应商——背景，来提供 negative labels。

标准的 OT 问题中，供货商和需求方的数量应该是一样的，所以，背景可以提供的 negative labels 的数量就是 $\times k$ ，将一个单元的 negative label 从 background 传递到 anchor 的花费如下，只有分类的 loss：

在这里插入图片描述

$\phi$ 表示背景类

将 $c^{bg}\in R^{1\times n}$ 和 $c^{fg} \in R^{m \times n}$ concat 起来，就得到了最终的花费 $\in R^{(m+1) \times n}$ ，供应商 s 可以被更新为：

在这里插入图片描述

有了花费、供应商、需求方后，最优传递方案 π*可以使用 off-the-shelf Sinkhorn-Knopp Iteration 方法解该 OT 问题来得到。

得到了 π* 之后，可以通过把每个 anchor 分配到能给他供货最多（即提供 label 数量最多）的 gt 上去来实现最优 label assignment。

OT 的计算只需要矩阵乘法，可以使用 GPU 来加速，提高了约 20% 的训练时间，在测试时候是无多消耗的。

OTA 的结构如下：

在这里插入图片描述

2.3 Center prior

1、Center prior

一般更关注 gt 中心区域采样的方法可以称为 center prior，OTA 是基于 global 的优化方法。理论上说 OTA 能够将任何处于 gt box 内部的 anchor 分配为正样本，但为了让模型更关注潜在的正样本区域（如 center area）来稳定训练过程，OTA 中也引入了 Center prior 的先验。

如何在 OTA 中引入 center prior 的先验：

引入的方法是在 cost matrix 中拼接了 center prior
对每个 gt，在每个 FPN level，选择距离 gt 中心 $r^2$ 内的 anchor 作为正样本
在 $r^2$ 之外的 anchor，会降低其被分配为正样本的可能性

2、不同大小的 r 的效果对比如下：

在这里插入图片描述

小的 r 表示只有很少的 anchor 会被分配为正，能够让网络更关注有用的信息
大的 r 表示会有更多的 anchor 会被分配为正，但会给网络带来一些不稳定因素
当 r 分别为 3/5/7 时，对应的 anchor 分别为 45/125/245（anchor 数量= $r^2$ * FPN levels）
OTA 对 r 的大小是很敏感的。当 r=5 时，表现较好。

3、对模棱两可的 anchor 的处理方式对比

当多个目标重叠或距离很近的时候，就会出现一个 anchor 和多个 gt 相交的情况，之前的方法 Min area、Max IoU、Min loss 等方法都是使用手工选定的规则来处理的。

作者分别计算了 ATSS、PAA、OTA 中模棱两可 anchor 的数量，并且计算了不同 r 下对应的性能，见表 2。

在这里插入图片描述

ATSS：随着 r 从 3 →7，模棱两可 anchor 的数量增长了很多，对应的 AP 从 39.4%→37.2%
PAA：模棱两可 anchor 的数量和 r 不是很相关，但 AP 也下降了 0.8%，这应该是由于 PAA 使用了 Max IoU，对这些模棱两可的 anchor 不是很友好
OTA：当多个 gt 都想要把自己的 label 传递给这个模棱两可的 anchor 的时候， OT 规则会根据 “最小全局花费” 的规则来解决这些冲突。所以 OTA 中的模棱两可的 anchor 数量少，且随着 r 没有很大的改变

图 3 中，红色箭头和虚线椭圆标明了模棱两可的位置，由于缺乏上下文和全局信息，ATSS 和 PAA 表现较差，OTA 在这里分配了很少的正样本，但有理由相信都是优质的样本。

在这里插入图片描述