机器学习笔记 - 使用 Pix2Pix 进行图像翻译
一、Pix2Pix概述
图像翻译适用于各种任务,从简单的照片增强和编辑到更细微的任务,如灰度到 RGB。例如,假设您的任务是图像增强,并且您的数据集是一组正常图像及其增强对应物。这里的目标是学习输入图像与其输出对应物的有效映射。
Pix2Pix 的作者建立在计算输入-输出映射的基础方法之上,并训练了一个额外的损失函数来加强这种映射。根据Pix2Pix 论文,他们的方法在各种任务中都很有效,包括(但不限于)从分割蒙版合成照片。
演示1:从边缘生成猫
演示2:生成建筑表面
在条件 GAN 的基础上,Pix2Pix 还混合了真实图像和生成图像之间的 L1 距离(两点之间的距离)。
二、生成器
Pix2Pix 使用 U-Net(下图),因为它具有跳跃连接。U-Net 的特征通常是其第一组下采样层,即瓶颈层,然后是上采样层。这里要记住的关键点是下采样层连接到相应的上采样层,如下图中的虚线所示。
三、鉴别器
鉴别器是一个 Patch GAN 鉴别器。普通 GAN 判别器将图像作为输入并输出单个值 0(假)或 1(真实)。补丁 GAN 鉴别器将输入作为本地图像补丁进行分析。它将评估图像中的每个补丁是真实的还是虚假的。
四、训练过程
在 Pix2Pix 中,Patch GAN 将接收一对图像:输入掩码和生成图像以及输入掩码和目标图像。这是因为输出取决于输入。因此,将输入图像保持在混合中很重要(如下图所示,其中判别器采用两个输入)。
未完