当前位置：首页 > news >正文

Deep Laplacian Pyramid Networks for Fast and Accurate Super-Resolution

news 来源：原创 2024/5/17 17:22:03

时间	期刊	方法	训练集	测试集	损失函数	效果	评价指标
2017年	cvpr	一种从粗到细逐步预测的方法。	291数据集。使用三种方式进行数据扩充。	SET5 [2], SET14 [39], BSDS100 [1], UR- BAN100 [15] and MANGA109 [23]	鲁棒的Charbonnier损失函数	在基准数据集上进行的大量定量和定性评估表明，该算法在速度和准确性方面优于最新的方法	PSNR、SSIM[32]和IFC[27]

论文地址：Deep laplacian pyramid networks for fast and accurate super-resolution

代码： twtygqyy/pytorch-LapSRN: Pytorch implementation for LapSRN (CVPR2017) (github.com)

LapSRN (ucmerced.edu)

引言

近年来，基于实例的SR方法通过使用大型图像数据库学习从LR到HR图像补丁的映射，展示了最先进的性能。很多学习算法被用于学习这样的映射，包括字典学习[37,38]，局部线性回归[30,36]，随机森林[26]。

SRCNN

目前存在通过在低分辨率空间执行卷积操作，最后使用反卷积或者是亚像素卷积来实现放大来加速SRCNN。比如FSRCNN,ESPCN。但是这些方法网络结构相对较小，没法学习复杂的映射。而且，现在存在的方法大都使用L2损失函数，这将会导致模糊。这是因为L2损失没法捕捉高分辨率图片的多模态分布。现有的方法都是基于一个上采样因子重建图像，而且不能生成中间的预测结果。

提出了基于级联卷积神经网络(CNNs)的拉普拉斯金字塔超分辨率网络(LapSRN)。我们的网络以LR图像作为输入，并以从粗到细的方式逐步预测子带残差。在每一层，我们首先应用卷积层来提取特征。然后，我们使用转置卷积层将特征映射上采样到更精细的级别。最后，我们使用卷积层来预测子带残差(上采样图像和地面真实HR图像在各自层次上的差异)。利用每一层的预测残差，通过上采样和额外的操作高效地重建HR图像。

我们的算法与现有的基于cnn的方法有以下三个方面的不同：

精度。直接在低分辨空间提取特征。使用优化的深度卷积预测子带残差。使用Charbonnier损失函数。
速度。
逐步重建。使用拉普拉斯金字塔渐进式重建，在前馈过程中可以生成多个中间SR预测。

Deep Laplacian Pyramid Network for SR

网络结构

特征提取

在s层，特征提取分支由d个卷积层和一个反卷积层组成，对提取的特征进行2倍上采样。每个反卷积层的输出连接到两个不同的层 (1)用于重建s级残差图像的卷积层，(2)用于提取s + 1级精细特征的卷积层。

我们在粗分辨率上执行特征提取，并在只有一个转置卷积层的较细分辨率上生成特征图。

与现有网络在精细分辨率下进行所有特征提取和重建相比，我们的网络设计大大降低了计算复杂度。请注意，较低层次的特征表示是与较高层次共享的，因此可以增加网络的非线性，以在较细的层次学习复杂的映射。

图像重建

在s级，输入图像通过一个反卷积(上采样)层以2的比例上采样。我们用双线性核初始化这一层，并允许它与所有其他层联合优化。然后，将上采样图像与来自特征提取分支的预测残差图像结合(使用元素求和)，产生高分辨率输出图像。然后将输出的s级HR图像送入s + 1级图像重建分支。整个网络是一个级联的cnn，每一级的结构都是相似的

损失函数

提出的LapSRN,每级都有对应的损失函数。这种多重损失结构类似于用于分类[21]和边缘检测[34]的深度监督网络。然而，[21,34]中用于监督中间层的标签在整个网络中是相同的。在我们的模型中，我们使用相应级别的不同比例的HR图像作为监督。深度监督引导网络训练预测不同层次的子带残差图像，产生多尺度输出图像。例如，我们的8×模型可以在一个前馈通道中产生2×、4×和8×超分辨率的结果。

训练细节

在提出的LapSRN中，每个卷积层由64个大小为3 × 3的滤波器组成。我们使用He等人[13]的方法初始化卷积滤波器。

反卷积滤波器大小为4 × 4，权值由双线性滤波器初始化。

所有的卷积层和反卷积(除了重建层)之后都有一个负斜率为0.2的LReLUs。在应用卷积之前，我们在边界上添加0，以保持所有特征映射的大小与每级的输入相同。卷积滤波器具有较小的空间支持(3 × 3)。然而，我们可以实现高非线性，并通过深度结构增加接收域的大小。

我们使用Yang et al.[38]中的91幅图像和Berkeley Segmentation Dataset[1]的训练集中的200幅图像作为我们的训练数据。[17,26]中也使用了相同的训练数据集。在每个训练批中，我们随机抽取64个patch，patchsize大小为128 × 128。一个epoch有1000次反向传播。我们通过三种方式对训练数据进行扩充:(1)scale:在[0.5,1.0]之间随机降尺度。(2)旋转:随机旋转图像90◦，180◦，或270◦。(3)翻转:水平或垂直翻转图像，概率为0.5。

我们使用双三次降采样生成LR训练块。

我们设置动量参数为0.9，权重衰减为1e−4

所有层的学习率初始化为1e−5，每50个epoch学习率降低2倍