当前位置：首页 > news >正文

deeplab v3论文精读

news 来源：原创 2024/5/2 17:44:33

1.abstract

deeplab v3采用级联或并行空洞卷积的模块，采用多尺度空洞率来捕获多尺度上下文。此外，对deeplab v2提出的空间空间金字塔池模块进行改进，该模块在多个尺度上探测卷积特征，获得全局上下文的图像级特征编码，并进一步提高性能。提出的“DeepLabv3”系统比之前没有DenseCRF后处理的DeepLab版本有了显著的改进

deeplab各个版本之间并没有太大的创新

2.Introduction

作者重新应用了无效卷积，能够有效地在滤波器模块和空间金字塔池的框架下，扩大滤波器的感受野，以纳入多尺度上下文。特别地，新提出的模块由具有各种空洞率的空洞卷积和批处理归一化层组成。

作者实验设计了级联或并行的模块（具体来说，空间空间金字塔池（ASPP）方法[11]）。讨论了应用极大的空洞率的3×3空洞卷积时的一个重要实际问题，由于图像边界效应无法捕获远程信息，有效地退化为1×1卷积，并提出将图像级特征合并到ASPP模块中。

3. Methods

作者首先探索设计在级联中布局的无性卷积的模块。具体来说，复制了最后一个ResNet块的几个副本，在图3中表示为块4，并将它们排列为级联。在这些块中有三个3×3卷积，最后一个卷积包含步2，将步长改为1，不进行下采样，并引入空洞卷积。最后得到的特征图为下采样16倍的特征图

3.2.1 Multi-grid Method

基于多网格方法，采用不同大小的网格层次，提出的模型中采用区块4和区块7的不同的膨胀率。特别地，将从第4块到第7块内的三个卷积层的单元速率定义为Multi Grid =（r1，r2，r3）。卷积层的最终膨胀速率等于单位速率和相应速率的乘法。例如，当输出步幅= 16和Multi Grid =（1、2、4）时，三个卷积将在块4中分别具有速率=2·（1、2、4）=（2、4、8）。

不同空洞率的ASPP有效地捕获多尺度信息。然而，随着采样率的增大，有效过滤器权值的数量（即应用于有效特征区域的权值，而不是填充零）变小。当对具有不同膨胀率的65×65特征图应用3×3滤波器时，这种效果如图4所示。在速率值接近特征图大小的极端情况下，3×3滤波器不是捕获整个图像上下文，而是退化为一个简单的1×1滤波器，因为只有中心滤波器的权重是有效的。

为了克服这个问题，并将全局上下文信息合并到模型中，在模型的最后一个特征图上应用全局平均池化，将得到的图像级特征与256个滤波器进行1×1卷积（以及批归一化[38]），然后将特征向上采样到所需的空间维度。最后，改进的ASPP包括(a)一个1×1卷积和三个3×3卷积，特征图下采样16倍时空洞率=（6,12,18）（均有256个滤波器和批归一化），(b)为图像级特征，如图5所示。请注意，当下采样8倍时，空洞率是两倍。然后，来自所有分支的结果特征被连接起来，并通过另一个1×1卷积（也有256个过滤器和批标准化），然后在最终的1×1卷积生成最终的分数。

4. Experimental Evaluation

4.1. Training Protocol

Learning rate policy: 指数调度

power=0.9

Batch normalization: 在ResNet之上添加的模块都包括批处理归一化参数[38]，由于需要较大的批大小来训练批归一化参数，因此作者使用输出步幅= 16，并计算批大小为16的批归一化统计量。用衰减= 0.9997训练批处理归一化参数。在30K迭代和初始学习率= 0.007训练后，我们冻结批归一化参数，采用输出步幅=8，在帕斯卡VOC 2012训练集上训练，进行30K迭代和更小的基础学习率= 0.001。

Upsampling logits: 当输出步幅=8时，训练期间特征图被降采样8。并对最终的特征图进行上采样

Data augmentation: 作者通过在训练期间随机缩放输入图像（从0.5到2.0）和随机左右翻转来应用数据增强。