当前位置：首页 > news >正文

Object Detection in Optical Remote Sensing Images: A Survey and A New Benchmark

news 来源：原创 2024/5/4 13:30:22

参考 Object Detection in Optical Remote Sensing Images: A Survey and A New Benchmark - 云+社区 - 腾讯云

摘要：

最近已作出大量努力，提出光学遥感图像中的各种目标检测方法。然而，目前对光学遥感图像中目标检测的数据集调查和基于深度学习的方法还不够完善。此外，现有的数据集大多存在一些不足之处，如图像和目标类别数量较少，图像多样性和变异性不足。这些局限性极大地影响了基于深度学习的目标检测方法的发展。本文综述了近年来计算机视觉和地球观测领域基于深度学习的目标检测研究进展。然后，我们提出了一个大规模、公开可用的光学遥感图像目标检测基准，我们将其命名为DIOR。数据集包含23463张图像和190288个实例，覆盖20个目标类。建议的DIOR数据集：

在目标类别、目标实例数量和总图像数量上都是大规模的;
具有大范围的对象尺寸变化，不仅在空间分辨率方面，而且在跨目标的类间和类内尺寸变化方面;
由于成像条件、天气、季节、成像质量的不同，成像结果差异较大;
具有较高的类间相似性和类内多样性。提出的基准可以帮助研究人员开发和验证他们的数据驱动方法。

最后，我们评估了DIOR数据集中的几种最先进的方法，为未来的研究奠定了基础。

1、简介

遥感技术的迅速发展大大增加了遥感图像的数量和质量，可以用来描述地球表面的各种物体，如机场、飞机、建筑物等。这自然对通过自动分析和理解卫星或航空图像进行智能地球观测提出了强烈的要求。目标检测在图像判读中起着至关重要的作用，在智能监测、城市规划、精准农业、地理信息系统(GIS)更新等领域有着广泛的应用。在这一要求的推动下，近年来在光学遥感图像中开发各种目标检测方法进行了大量的工作。

近年来，基于深度学习的算法以其强大的特征表示能力在各种视觉识别任务的精度基准中占据了主导地位。得益于此以及一些公开可用的自然图像数据集，如Microsoft Common Objects in Context (MSCOCO)和PASCAL Visual Object Classes (VOC) ，许多基于深度学习的目标检测方法在自然场景图像中取得了巨大的成功。然而，尽管在自然图像中取得了显著的成功，但将基于深度学习的目标检测方法直接应用于光学遥感图像中存在困难。正如我们所知，高质量和大规模的数据集对于训练基于深度学习的目标检测方法非常重要。然而，遥感图像与自然景物图像之间的差异是显著的。如图1所示，遥感图像通常捕捉地理空间目标的屋顶信息，而自然场景图像通常捕捉对象的轮廓信息。因此，从自然景物图像中学习到的目标检测器不容易应用到遥感图像中也就不足为奇了。虽然在地球观测领域提出了NWPU VHR‐10、UCAS‐AOD、COWC、DOTA等几种流行的目标检测数据集，但仍远远不能满足深度学习算法的要求。

迄今为止，在遥感图像目标检测方面已经作出了重大努力。然而，目前关于数据集和基于深度学习的目标检测方法的文献综述还不够。此外，现有的公共可用数据集大多存在一些不足，如图像和目标类别数量较少，图像多样性和变异性也不够。这些局限性极大地阻碍了基于深度学习的目标检测方法的发展。

为了解决上述问题，本文试图对基于深度学习的目标检测方法的研究进展进行全面的综述。然后，我们提出了一个大规模、公开可用的光学遥感图像目标检测基准，我们将其命名为DIOR。我们提出的数据集由20个对象类别覆盖的23463幅图像组成，每个类别包含约1200幅图像。在与其他现有对象检测数据集进行比较时，我们突出了DIOR数据集的四个关键特征。首先，总体图像、目标类别和目标实例的数量都很大。其次，这些物体的尺寸变化范围很大，不仅在空间分辨率方面如此，而且在跨物体的类别间和类别内尺寸变化方面也是如此。第三，我们的数据集有很大的变化，因为这些图像是在不同的成像条件、天气、季节和图像质量下获得的。四是具有较高的类间相似性和类内多样性。图2显示了一些示例图像及其来自我们建议的DIOR数据集的注释。

我们的主要贡献总结如下：

基于深度学习的目标检测进展综合调查。本文综述了计算机视觉和地球观测领域中已有的数据集和具有代表性的基于深度学习的目标检测方法的研究进展。
创建大型基准数据集。本文提出了一种大规模、公开可用的光学遥感图像目标检测数据集。据我们所知，所提议的DIOR数据集在对象类别数量和图像总数上都是规模最大的。该数据集使社区能够验证和开发数据驱动的目标检测方法。
建议的DIOR数据集的性能基准。我们在我们的DIOR数据集上对几种具有代表性的基于深度学习的目标检测方法进行了基准测试，以便为未来的研究工作提供对当前技术状态的概述。

本文的其余部分组织如下。第2‐3节分别回顾了基准数据集和计算机视觉和地球观测领域的深度学习方法在目标检测方面的最新进展。第4节详细描述了所提议的DIOR数据集。第5节在提出的数据集上测试了几种具有代表性的基于深度学习的对象检测方法。最后，第6节分对本文进行了总结。

2、计算机视觉领域中目标检测研究综述

随着各种深度学习模型的出现，特别是卷积神经网络(CNN)在图像分类方面取得了巨大的成功，基于深度学习的目标检测框架在计算机视觉领域被提出。因此，我们将首先对自然场景图像中目标检测任务的数据集参考文献以及基于深度学习的方法进行系统的综述。

2.1、自然场景图像的目标检测数据集

大规模、高质量的数据集对于提高目标检测性能非常重要，尤其是对于基于深度学习的方法。PASCAL VOC、MSCOCO 和ImageNe对目标检测数据集是三种广泛应用于自然场景图像中目标检测的数据集。下面简要回顾这些数据集。

PASCAL VOC数据集：PASCAL VOC 2007和VOC 2012是用于自然场景图像目标检测的两个最常用的数据集。它们都包含20个目标类，但是图像编号不同。具体来说，PASCAL VOC 2007数据集共包含9963张图像，其中5011张用于训练，4952张用于测试。PASCAL VOC 2012数据集对PASCAL VOC 2007数据集进行了扩展，得到了一个更大的数据集，包括11540张用于训练的图像和10991张用于测试的图像。
MS COCO数据集：MSCOCO数据集是微软在2014年提出的。无论是目标类别的数量还是目标实例的数量，MSCOCO数据集的规模都远远大于PASCAL VOC数据集。具体来说，数据集由80个目标类别覆盖的20多万幅图像组成。数据集进一步划分为三个子集:训练集、验证集和测试集，分别包含约80k、40k和80k图像。
ImageNet目标检测数据集：该数据集发布于2013年，是所有目标检测数据集中目标类别最多、图像数量最多的数据集。具体而言，该数据集包括200个目标类和50多万幅图像，其中用于训练的图像为456567幅，用于验证的图像为20121幅，用于测试的图像为40152幅。

2.2、基于深度学习的计算机视觉社区目标检测方法

近年来，许多基于深度学习的目标检测方法被提出，极大地提高了目标检测的性能。通常，现有的用于目标检测的深度学习方法可以根据是否生成区域建议分为两类。它们是基于区域建议的方法和基于回归的方法。

2.2.1、基于区域建议的方法

近年来，基于区域建议‐的目标检测方法在自然场景图像中取得了巨大的成功。这种方法将目标检测框架分为两个阶段。第一阶段的重点是生成一系列可能包含目标的候选区域建议。第二阶段的目标是将第一阶段获得的候选区域建议分类为目标类或背景，并进一步微调边界框的坐标。

由Girshick等人提出的基于区域的CNN (R‐CNN)是各种基于区域建议方法中最著名的方法之一。采用CNN模型生成丰富的目标检测特征是具有代表性的工作，与以往的所有工作相比，实现了突破性的性能改进，主要基于可变形零件模型(deformable part model, DPM) 。简单地说，R‐CNN由三个简单的步骤组成。首先，使用选择性搜索方法对输入图像进行扫描，寻找可能的目标，生成约2000个区域建议。其次，将这些区域提案调整为固定的尺寸(如224×224)，利用PASCAL VOC数据集上微调过的CNN模型提取每个区域提案的深层特征。最后，将每个区域建议的特征输入到一组特定于类的支持向量机(SVMs)中，将每个区域建议标记为目标或背景，并使用线性回归器细化目标本地化(如果存在目标)。

虽然R‐CNN超越了以往的目标检测方法，但由于重复计算大量的区域建议，效率低下是其主要缺点。为了获得更好的检测效率和精度，最近的一些工作，如SPPnet和Fast R‐CNN，提出了共享计算负荷的CNN特征提取的所有区域的建议。与R-CNN相比，Fast R-CNN和SPPNet对整幅图像进行特征提取与感兴趣的区域(RoI)层和一个空间金字塔池(SPP)层,分别在CNN模型运行在整个图像只有一次而不是数千倍,因此他们需要更少的计算时间。

虽然SPPnet和Fast R‐CNN的工作速度比R‐CNN快，但它们需要提前获得区域建议，这些提案通常由手工工程提案检测器(如EdgeBox和选择性搜索方法)生成。然而，手工区域建议机制是整个目标检测过程中的一个严重瓶颈。因此，为了解决这个问题，提出了Faster R‐CNN。Fast R‐CNN的主要观点是采用一个快速模块来生成区域建议，而不是采用缓慢的选择搜索算法。具体来说，Faster R‐CNN框架由两个模块组成。第一个模型是区域建议网络(RPN)，它是一个用于生成区域建议的全卷积网络。第二个模块是Fast R‐CNN目标检测器，用于对与第一个模块生成的提案进行分类。Faster R‐CNN的核心思想是为RPN和Fast R‐CNN检测器共享相同的卷积层，直到它们自己的完全连接的层。这样，图像只需要经过CNN一次就可以生成区域提案及其对应的特征。更重要的是，由于卷积层的共享，可以使用非常深入的CNN模型生成比传统的区域建议生成方法更高质量的区域建议。

此外，一些研究人员进一步扩展了Fast R‐CNN的工作，以获得更好的性能。例如，Mask R‐CNN建立在Faster R‐CNN之上，并添加了一个额外的分支来预测与现有分支并行的目标掩码，用于边界框检测。因此，Mask R‐CNN可以准确地识别目标，同时为每个目标实例生成高质量的分割掩码。为了进一步加快Faster R‐CNN的目标检测，提出了基于区域‐的全卷积网络(R‐FCN)。它使用一个位置敏感的感兴趣区域(RoI)池层来聚合最后一个卷积层的输出，并为每个RoI生成分数。与Faster R‐CNN相比，R‐FCN在整个图像上几乎共享所有计算负载，从而比Faster R‐CNN快2.5‐20×。此外，Li等提出了一种Light Head R‐CNN，通过使探测网络的头尽可能轻，进一步加快R‐FCN的探测速度。此外，Singh等人提出了一种新型检测器，名为R‐FCN‐3000 ，用于3000个目标类的大规模实时目标检测。该方法是R‐FCN的一个改进，用于学习共享过滤器，以便跨不同目标类执行定位。

2017年，通过在CNNs内部构建特征金字塔，提出了一种特征金字塔网络(FPN)，该网络作为一种通用的特征提取器，以Faster R‐CNN和Mask R‐CNN为框架，对目标检测进行了显著改进。此外，提出了一种路径聚合网络(PANet)，通过自下而上的路径增强，以精确的低层定位信息增强整个特征层次结构，可以显著缩短低层与顶层特征之间的信息路径。

最近，Singh等人提出了两种先进而有效的目标检测数据论证方法，包括图像金字塔尺度归一化(SNIP)和高效重采样(SNIPER)的SNIP。这两种方法对极端尺度变化下的目标检测和识别技术进行了详细的分析。具体来说，SNIP是一种新的训练范式，它在训练和检测阶段都构建图像金字塔，并且只选择性地反向传播不同大小目标的梯度作为图像尺度的函数。因此，在不减少训练样本的情况下，减少训练期间的规模变化将显著受益。狙击手是一种高效的多尺度训练方法，它根据图像内容，从图像金字塔的多个尺度自适应地生成训练样本。在相同的条件下，狙击手表现得和狙击一样好，同时在训练中减少了3倍的像素处理。这里需要指出的是，SNIP和SNIPER是通用的，因此可以广泛应用于许多检测器，如Faster R‐CNN、Mask R‐CNN、R‐FCN、Deformable R‐FCN等。

2.2.2、基于回归的方法

这种方法使用一个一阶段目标检测器进行目标实例预测，从而将检测简化为一个回归问题。与基于区域建议的方法相比，基于回归的方法更简单、更有效，因为不需要生成候选区域建议和随后的特征重新采样阶段。OverFeat是第一款基于深度网络的基于回归的对象检测器，使用滑动窗口范式。最近，You Look Only Once(YOLO)，Single Shot multibox Detector (SSD)和RetinaNet更新了基于回归的方法的性能。

YOLO是一种典型的基于回归的目标检测方法。它采用一个CNN主干，在一次评估中直接从整个图像预测边界框和类概率。它的工作原理如下。给定一个输入图像，首先将其划分为S×S网格。如果一个目标的中心落在网格单元格中，该网格负责检测该目标。然后，每个网格单元预测B个边界框以及它们的置信度得分和C类概率。YOLO将目标检测重新定义为一个单一的回归问题，从而实现实时目标检测。然而，它仍然难以精确地定位某些目标，尤其是小型目标。

为了提高系统的速度和精度，提出了一种SSD算法。具体来说，边界框的输出空间被离散成一组默认框，每个特征映射位置具有不同的尺度和宽高比。在预测过程中，基于SSD模型生成每个默认框中每个目标类存在的置信度评分，并对该框进行调整以更好地匹配目标形状。此外，为了解决目标尺寸变化的问题，SSD将不同分辨率的多地物图的预测结果结合起来。与YOLO相比，SSD通过引入默认盒机制和多尺度特征图，在检测和定位小尺寸目标方面取得了更好的性能。另一个有趣的工作是RetinaNet检测器，它本质上是一个特征金字塔网络，传统的交叉熵损失被一个新的焦损所取代，从而显著提高了精度。

YOLOv2模型在提高目标检测精度的同时，仍然是一种高效的目标检测方法。为此，本文提出了对原YOLO方法的各种改进。例如，为了避免在不使用dropout的情况下进行过度拟合，YOLOv2在所有卷积层上添加了批处理归一化。通过将输入图像的尺寸从224×224 (YOLO)调整到448×448 (YOLOv2)，接收高分辨率图像作为输入，从而有效地检测较小尺寸的目标。此外，YOLOv2从原来的YOLO检测器中移除全连接层，并基于锚盒预测边界盒，这与SSD有类似的想法。

最近，提出了YOLOv3模型，该模型具有类似的性能，但比YOLOv2、SSD和RetinaNet更快。YOLOv3遵循YOLOv2的机制。具体来说，使用维度集群作为锚框来预测边界框。然后，用独立的逻辑分类器代替软最大分类器对每个边界框输出一个目标得分。与FPN概念相似，通过从这些尺度中提取特征，在三个不同尺度下预测边界框。YOLOv3使用一个新的主干网Darketnet‐53来执行特征提取。它有53个卷积层，是一个新颖的剩余网络。由于引入了Darketnet‐53和多比例尺特征图，与最初的YOLO或YOLOv2相比，YOLOv3实现了极大的速度改进，并提高了对小型目标的检测精度。

此外，Law和Deng还提出了CornerNet，这是一种新的有效的对象检测范式，将对象边界框检测为成对的角(即，左上角和右下角)。通过将目标检测为成对的角，角网消除了设计一组广泛用于基于回归的目标检测器的锚盒的需要。这项工作还引入了拐角池，这是一种新型的池化层，可以帮助网络更好地本地化拐角。

一般来说，基于区域建议的目标检测方法比基于回归‐的算法具有更好的准确性，而基于回归‐的算法在速度上具有优势。一般认为，CNN框架在目标检测任务中起着至关重要的作用。CNN架构作为各种对象检测框架的网络骨架。代表性的CNN模型架构包括AlexNet、ZFNet、VGGNet、GoogLeNet、Inception系列、ResNet、DenseNet和SENet。为了进一步提高基于深度学习的目标检测方法的性能，如特征增强、硬负挖掘、上下文信息融合、目标变形建模等方面的研究也得到了广泛的探索。

3、地球观测系统中目标检测研究进展综述

在过去的几年里，人们探索了许多目标检测方法来检测地球观测社区中的各种地理空间对象。Cheng等在2016年对光学遥感图像中的目标检测算法进行了全面综述。但是，本文的工作并没有对各种基于深度学习的目标检测方法进行综述。与之前发表的几项调查不同，我们重点回顾了地球观测领域中关于数据集和基于深度学习的目标检测方法的文献。

3.1、光学遥感图像目标检测数据集

在过去的几十年里，一些不同的研究小组已经发布了他们的公开的地球观测图像数据集用于目标检测(见表1)。这些数据集将被简要回顾如下。

1)、TAS：

TAS数据集用于航空图像中的汽车检测。它总共包含30张图片和1319辆带有任意方向手动标注的汽车。这些图像的空间分辨率相对较低，由建筑物和树木造成的阴影较多。

2)、SZTAKI‐INRIA：

SZTAKI‐INRIA数据集用于对各种建筑检测方法进行基准测试。它由665栋建筑组成，手工标注了定向边界框，分布在来自曼彻斯特(英国)、萨达和布达佩斯(匈牙利)、科达·阿苏尔和诺曼底(法国)以及博登西(德国)的9幅遥感图像中。所有的图像只包含红色(R)、绿色(G)和蓝色(B)三个通道。其中，两幅图像(Szada和Budapest)是航空图像，其余七幅图像是来自QuickBird、IKONOS和谷歌Earth的卫星图像。

3)、NWPU VHR‐10：

NWPU VHR‐10数据集有10个地理空间对象类，包括飞机、棒球场、篮球场、桥梁、港口、地面田径场、船舶、储罐、网球场和车辆。它由715幅RGB图像和85幅pan‐锐化彩色红外图像组成。其中715幅RGB图像采集自谷歌地球，空间分辨率从0.5m到2m不等。85幅经过pan‐锐化的红外图像，空间分辨率为0.08m，来自Vaihingen数据。该数据集共包含3775个对象实例，其中包括757架飞机、390个棒球方块、159个篮球场、124座桥梁、224个港口、163个田径场、302艘船、655个储罐、524个网球场和477辆汽车，这些对象实例都是用水平边框手工标注的。该数据集已广泛应用于地球观测领域。

4)、VEDAI：

VEDAI数据集用于航空图像中的多类车辆检测。它包含3640个车辆实例，包括9个类别，包括船、车、露营车、飞机、接送车、拖拉机、卡车、货车和其他类别。该数据集共包含来自犹他州AGRC (http://gis.utah.gov/)的1210 1024×1024张航空图像，空间分辨率12.5 cm。数据集中的图像采集于2012年春季，每张图像都有四个未压缩的彩色通道，包括三个RGB彩色通道和一个近红外通道。

5)、UCAS‐AOD：

UCAS‐AOD数据集用于飞机和车辆检测。具体地说，飞机数据集由600张3210架飞机的图像组成，而车辆数据集由310张2819架车辆的图像组成。所有的图像都经过精心选择，使数据集中的目标方向分布均匀。

6)、DLR 3K车辆：

DLR 3K车辆数据集是另一个用于车辆检测的数据集。包含20张5616×3744航拍图像，空间分辨率为13厘米。这些照片是在德国慕尼黑上空1000米高空使用DLR 3K摄像系统(一种近乎实时的机载数字监控系统)拍摄的。有14235辆汽车是通过在图像中使用定向包围框手动标记的。

7)、HRSC2016：

HRSC2016数据集包含1070张图像，共2976艘船，采集自谷歌Earth，用于船舶检测。图像尺寸从300×300变化到1500×900，大部分在1000×600左右。这些图像的采集具有很大的旋转、比例、位置、形状和外观的变化。

8)、RSOD：

RSOD数据集包含从谷歌Earth和Tianditu下载的976张图像，这些图像的空间分辨率在0.3m到3m之间。它总共包含6950个对象实例，由4个目标类覆盖，包括1586个油箱、4993架飞机、180个立交桥和191个操场。

9)、DOTA：

DOTA是一个全新的大型地理空间目标检测数据集，包括15个不同的对象类别:棒球场、篮球场、桥梁、港口、直升机、地面田径场、大型车辆、飞机、船舶、小型车辆、足球场、储水池、游泳池、网球场、环岛等。该数据集共包含2806张来自不同传感器和平台的多分辨率航空图像。有188282个目标实例由一个面向对象的包围框标记。图像的大小从800×800到4000×4000像素不等。每个图像包含多个不同尺度、方向和形状的目标。到目前为止，这个数据集是最具挑战性的。

3.2、基于深度学习的地球观测小区目标检测方法

受计算机视觉领域中基于深度学习的目标检测方法的巨大成功启发，近年来对光学遥感图像中的目标检测进行了广泛的研究。与自然场景地图中的目标检测不同，大多数研究使用基于区域建议的方法来检测地球观测社区中的多类目标。因此，在地球观测领域，我们不再区分基于区域建议的方法和基于回归的方法。在这里，我们主要回顾一些有代表性的方法。

由于R‐CNN在自然场景图像目标检测方面的优异性能，许多地球观测研究人员采用R-CNN流程来检测遥感图像中的各种地理空间目标。例如，Cheng等人提出在R‐CNN框架中学习用于多类地理空间目标检测的旋转不变CNN(RICNN)模型。RICNN是通过添加一个新的旋转‐不变层到非‐架CNN模型，如AlexNet来实现的。为了进一步提高检测目标的技术水平，提出了一种新的方法来训练旋转‐不变和费雪判别CNN (RIFD‐CNN)模型，方法是在CNN特征上添加旋转‐不变正则化器和费雪判别正则化器。为了在高分辨率地球观测图像中实现地理空间目标的精确定位，Long等提出了一种基于R‐CNN框架的基于无监督分数的边界盒回归(USB‐BBR)方法。

尽管上述方法在地球观测领域取得了良好的性能，但它们仍然非常耗时，因为这些方法依赖于人工设计的目标建议生成方法，这些方法占用了目标检测系统的大部分运行时间。此外，基于手工设计的低‐级特征生成的区域建议质量不佳，因此会降低目标检测性能。

为了进一步提高检测精度和速度，一些研究工作将Fast R‐CNN框架扩展到地球观测社区。例如，Li等人(Li et al.， 2018)提出了一种旋转‐不敏感RPN，在现有的基于快速R‐CNN管道的RPN中引入多角度锚，可以有效地处理地理空间目标旋转变化问题。此外，为了解决外观模糊问题，设计了一个双通道特征组合网络来学习局部和上下文属性。Zhong等人利用位置敏感平衡(PSB)方法来提高生成区域提案的质量。在提出的PSB框架中，基于残差网络引入了全卷积网络(FCN)来解决目标检测中的平移方差与图像分类中的平移不变性之间的矛盾。Xu等人提出了一种可变形CNN来对物体的几何变化进行建模。在这篇文章中，开发了受宽高比约束的非‐最大抑制，以减少虚假区域建议的增加。针对车辆检测，Tang等提出了一种超区域建议网络(HRPN)来寻找类车区域，并利用硬负挖掘进一步提高检测精度。

虽然采用基于区域建议‐的方法(如R‐CNN、Fast R‐CNN及其变体)来检测地球观测图像中的地理空间目标显示出非常有前途的性能，但在探索不同的基于深度学习的方法方面已经做出了显著的努力，它们没有遵循基于区域建议的方法来检测遥感图像中的目标。例如,Yu et al. 提出了一个旋转不变量方法来检测地理空间目标,在超像素分割应承担的策略是首先用于生产当地的补丁,然后,深玻耳兹曼机采用构建高水平的特征表示本地补丁,最后一组多人规模的脚腕森林是建立起把旋转不变的选票来定位目标重心。邹等利用奇异值解算网络获取类船区域，采用特征池操作和线性SVM分类器对每艘候选船进行检测验证。虽然这个检测框架很有趣，但是训练过程仍然很笨拙和缓慢。

最近，为了实现实时目标检测，一些研究尝试将基于回归的自然场景图像检测方法转移到遥感图像上。例如，Tang等人与SSD分享了类似的想法，他们使用基于回归的目标检测器来检测车辆目标。具体来说，检测边界框是通过对每个特征图位置使用一组具有不同比例的默认框生成的。此外，对于每个默认框，预测偏移量更适合目标形状。Liu et al.将传统的边界框替换为嵌入到SSD框架中的可旋转边界框(RBox) ，由于其具有估计物体方位角的能力，因此具有旋转不变性。Liu等人设计了一个用于检测任意‐方向船只的框架。该模型以YOLOv2体系结构为基本网络，可以直接预测旋转/定向的边界框。此外，hard example mining ，多特征融合，迁移学习、非极大值抑制，通常用在地理目标检测中进一步提升深度学习方法的性能。

尽管大多数现有的深度学习方法展示了重大成就基于目标检测的任务在地球观测社区，他们是转移的方法(例如，R-CNN和Faster R-CNN在SSD，等等)设计对自然场景图像。事实上，正如我们上文所指出的，地球观测图像与自然场景图像的显著差异是显著的，尤其是在旋转、尺度变化以及复杂而杂乱的背景方面。虽然现有的方法通过引入先验知识或设计专有模型在一定程度上解决了这些问题，但对地球观测图像的目标检测仍然是一个有待进一步研究的开放问题。

4、提出的DIOR数据集

在过去的几年里，在地球观测社区中发布各种目标检测数据集的工作取得了显著的进展。然而，现有的地球观测领域的目标检测数据集大多存在一些共同的不足，如图像数量和目标类别数量都比较小，图像多样性和目标变异性不够。这些局限性极大地影响了基于深度学习的目标检测方法的发展。在这种情况下，利用遥感图像建立大规模的目标检测数据集是地球观测界迫切需要的。这促使我们创建一个名为DIOR的大型数据集。它是公开的，可以免费用于光学遥感图像中的目标检测。

4.1、目标类别选择

选择合适的地理空间目标类是构建数据集的第一步，对数据集至关重要。在我们的工作中，我们首先调查了所有现有数据集的目标类获得NWPU VHR‐10数据集和DOTA数据集中常用的10个目标类别。然后我们进一步扩展数据集的目标类别通过搜索关键字“目标检测”、“目标识别”、“地球观测图像"和“遥感图像”谷歌学术搜索和网络科学的仔细选择其他10个目标类，根据一种目标是否常见或者其价值真实世界的应用程序。例如，选择火车站、高速公路服务区、机场等交通基础设施，主要是因为它们在实际应用中的价值。此外，现有数据集中的大多数目标类别都是从城市区域中选择的。因此，为了提高地理空间目标的多样性和差异性，选择了在郊区较为常见的水坝和风磨，以及重要的基础设施。在这种情况下，总共选择20个目标类来创建建议的DIOR数据集。这20个目标类分别是飞机、机场、棒球场、篮球场、桥梁、烟囱、大坝、高速公路服务区、高速公路收费站、港口、高尔夫球场、地面田径场、立交桥、船舶、体育场、储罐、网球场、火车站、车辆和风磨。

4.2、我们建议的DIOR数据集的特征

DIOR数据集是地球观测社区中最大、最多样化和公开可用的目标检测数据集之一。我们使用开源图像注释工具LabelMe 来注释目标实例。每个目标实例都由一个水平包围框手工标记，该框通常用于遥感图像和自然场景图像中的目标注释。图3报告了每个类的目标实例数。在DIOR数据集中，船舶和车辆的目标类实例数较高，而火车站、高速公路收费站和高速公路服务区的目标类实例数较低。物体大小的多样性对现实世界的任务更有帮助。如图4所示，我们在小型实例和大型实例之间实现了良好的平衡。此外，不同类别目标的显著尺寸差异使得检测任务更具挑战性，因为这要求检测器必须足够灵活，能够同时处理小尺寸和大尺寸目标。

与包括现有目标检测数据集在内的现有目标检测数据集相比，所提出的DIOR数据集具有以下四个显著特征。

1)、大型规模：

DIOR由23463张最优遥感图像和190288个目标实例组成，这些目标实例用轴向对齐的边界框手动标记，覆盖20个常见对象类别。数据集中图像大小为800×800像素，空间分辨率为0.5m ~ 30m。与大多数现有数据集类似，该数据集也是由地球观测解释领域的专家从谷歌Earth(谷歌Inc.)采集的。

与所有现有的用于目标检测的遥感图像数据集相比，我们所知的DIOR数据集在图像数量和目标类别数量上都是规模最大的。该数据集的发布将有助于地球观测界探索和评估各种基于深度学习的方法，从而进一步提高技术水平。

2)、目标尺寸变化范围大：

空间尺度变化是地理空间物体的一个重要特征。这不仅是因为传感器的空间分辨率，还因为‐级尺寸变化(例如航空母舰对汽车)和级内尺寸变化(例如航空母舰对渔船)。在所提议的DIOR数据集中，目标实例的大小变化范围很大。为了增加目标的尺寸变化，我们收集目标空间分辨率不同的图像，并在我们的数据集中收集同一目标类别和不同目标类别中包含丰富尺寸变化的图像。如图5 (a)所示，“vehicle”和“ship”实例的大小不同。此外，由于空间分辨率的不同，“体育场”实例的目标大小也存在明显差异。

3)、丰富的图像变化：

任何目标检测系统都非常需要的一个特性是对图像变化的鲁棒性。然而，现有的数据集大多缺乏完全或部分的图像变化。例如，广泛使用的NWPU VHR‐10数据集仅包含800幅图像，太小，无法在各种天气、季节、成像条件、尺度等方面拥有更丰富的变化。相反，所提议的DIOR数据集包含了覆盖80多个国家的23463幅遥感图像。此外，这些图像是在不同的天气、季节、成像条件和图像质量下仔细收集的(见图5 (b))。因此，我们提出的DIOR数据集在视点、平移、光照、背景、物体姿态和外观、遮挡等方面都有更丰富的变化，对于每个目标类。

4)、类间相似性和类内多样性高：

我们提出的数据集的另一个重要特征是，它具有很高的类间相似性和类内多样性，因此非常具有挑战性。为了获得较大的类间相似性，我们添加了一些细粒度的语义重叠的目标类，如“桥”与“立交桥”、“桥”与“坝”、“田径场”与“体育场”、“网球场”与“篮球场”等。为了增加类内多样性，在收集图像时要考虑各种因素，如不同的目标颜色、形状和比例。如图5 (c)所示，“烟囱”实例呈现出不同的形状，“大坝”和“桥梁”实例呈现出非常相似的外观。

5、代表方法的基准测试

本节的重点是在我们所提议的DIOR数据集上对一些具有代表性的基于深度学习的目标检测方法进行基准测试，以便为未来的研究工作提供对当前状态的概述。

5.1、实验步骤

为了保证训练验证(trainval)数据和测试数据分布的相似性，我们随机选取了11725幅遥感图像(即,50%的数据集)trainval集,剩下的11738图像作为测试集。trainval数据由两部分组成,训练(培训)和验证(val)。对于每个目标类别和子集,图像的数量至少包含一个对象类的目标实例是在表2。注意，一个图像可能包含多个目标类，因此列总数并不简单地等于每个对应列的和。如果检测的边界框与地面真实值重叠超过50%，则认为检测是正确的;否则，检测结果将被视为假阳性。我们在一台只有英特尔酷睿i7 CPU、64 GB内存和NVIDIA Titan X加速GPU的计算机上进行了所有实验。

我们选取了12种具有代表性的基于深度学习的目标检测方法作为基准测试算法，这些方法广泛应用于自然场景图像和地球观测图像中的目标检测。具体来说，我们的选择包括8种基于区域建议的方法:R‐CNN、RICNN、RICAOD、Fast R‐CNN、RIFD‐CNN、Fast R‐CNN(带有FPN和PANet)、Mask R‐CNN以及4种基于回归的方法：YOLOv3、SSD、RetinaNet和CornerNet。为了进行公平的比较，我们保持了所有的实验设置与相应的论文中描述的相同。R‐CNN、RICNN、RICAOD 和RIFD‐CNN都是基于Caffe框架构建的。Faster R‐CNN，带FPN的Faster R‐CNN，带FPN的Mask R‐CNN， PANet， RetinaNet使用Pytorch重新实现。YOLOv3使用Darknet‐53框架， SSD使用TensorFlow实现。注意，R‐CNN 、RICNN、RICAOD、Faster R‐CNN、RIFD‐CNN和SSD的骨干网络为VGG16模型。YOLOv3使用Darknet‐53作为骨干网络。对于使用FPN的Faster R‐CNN、Mask R‐CNN、FPN 、PANet和RetinaNet ，我们使用ResNet‐50和ResNet‐101作为骨干网络。至于CornerNet，其骨干网络是Hourglass‐104。采用平均精度(AP)和平均AP作为评价目标检测性能的指标。关于这两个指标的更多细节可以参考。

5.2、实验结果

12种代表性方法的结果如表3所示。由表3可以看出。

(1)、主干网越深，网络的表示能力越强，检测精度越高。它通常遵循以下顺序:ResNet‐101和沙漏‐104 > ResNet50和Darknet‐53 > VGG16。RetinaNet与ResNet‐101和PANet与ResNet‐101的检测结果均达到66.1%的最高值。

(2)、由于CNNs通过正向传播自然形成特征金字塔，利用CNNs固有的金字塔层次结构构建特征金字塔网络，如FPN和PANet，可以显著提高检测精度。在基本的Fast R‐CNN和Mask RCNN系统中使用FPN显示了在检测具有广泛尺度的目标方面的巨大进步。因此，FPN现在已经成为许多最新探测器的基本组成部分，如RetinaNet 和PANet。

(3)、YOLOv3 在检测小型目标实例(如车辆、储罐和船只)时，总是能够达到比其他方法更高的精度。特别是对于舰船类，YOLOv3的检测精度达到87.40%，远远优于其他11种方法。这可能是因为Darknet‐53主干网是专门为目标检测任务而设计的，而且YOLOv3引入了新的多尺度预测，这使得它能够从三个不同的尺度中提取更丰富的特征。

(4)、对于船舶、飞机、篮球场、车辆、桥梁、RIFD‐CNN 、RICAOD 和RICNN，与Fast R‐CNN和R‐CNN 的baseline方法相比，在一定程度上提高了检测精度。这主要是因为这些方法提出了不同的策略来丰富遥感图像的特征表示，以解决地理空间对象旋转变化的问题。具体来说，RICAOD设计了一个旋转敏感区域建议网络。RICNN通过添加一个新的全连接层，提出了一个旋转‐不变CNN。RIFD‐CNN在不改变CNN模型结构的前提下，提出了新的目标函数，从而学习了旋转‐不变和Fisher判别CNN。

(5)、CornerNet 对20个目标类中的9个获得了最好的结果，这表明将一个目标检测为一对边界框角是一个非常有前景的研究方向。

虽然一些目标类别的结果是有希望的，但几乎所有目标类别都有很大的改进空间。对于桥梁、港口、立交桥、车辆等目标类，检测精度仍然很低，现有方法难以取得满意的结果。这可能是由于航空图像与自然场景图像相比，图像质量相对较低，背景复杂杂乱。这也表明，所提出的DIOR数据集是一个具有挑战性的地理空间目标检测基准。在未来的工作中,一些新颖的训练计划包括SNIP和SNIPER可以应用于许多现有的检测器,如更快的R-CNN,Mask R-CNN,R-FCN,deformable R‐FCN来达到更好的效果。

6、结论

本文首先强调了最近在目标检测方面的进展，包括基准数据集和基于先进深度学习的方法，包括计算机视觉和地球观测领域。在此基础上，提出了一个大规模、公开可用的目标检测基准数据集。这个新的数据集可以帮助地球观测界进一步探索和验证基于深度学习的方法。最后，利用所提出的数据集对几种具有代表性的目标检测方法的性能进行了评价，实验结果可作为今后研究的一个有用的性能基准。