当前位置：首页 > news >正文

【扩散模型】5、Diffusion models beat GAN | 使用类别引导图像生成

news 来源：原创 2024/5/9 4:52:24

在这里插入图片描述

论文：Diffusion models beat GAN on image Synthesis

代码：https://github.com/openai/guided-diffusion

出处：OPENAI | NIPS2021

时间：2021

贡献：

在本文章之前，扩散模型生成的图片已经非常逼真了，但是 inception score（IS FID等）不如GAN，如何提供一些人为指导来帮助模型采样和学习，提高分数和采样速度就是本文的出发点
作者引入了 classifier guidance 模式，将扩散模型变成了 class-conditional 任务，使用分类梯度来指导扩散模型的生成，平衡了多样性和保真性，降低了扩散模型的采样时间，同时能提高高分辨率情况下的采样效果

一、背景

在近几年来，生成式模型已经能生成类似人类的自然语音、声音、音乐，也能生成高质量的图像

GAN[19] 在当时来说是很多图像生成任务的 SOTA，其评判标准都是例如 FID、Inception Score、Precision 等简单标准

但这些标准很难完全捕捉到图像之间的差异，而且 GAN 也被证明捕捉到的差异性比很多 likelihood-based 方法能够捕捉到的更少一些，而且 GAN 比较难以训练，一旦没有仔细的设置参数和规则，就容易崩塌

扩散模型就是 likelihood-based 方法的一种，其通过逐步从图像信号中移除噪声来生成图片，其训练的目标函数可以被看做一个重参数化的变分下届，扩散模型在 CIFAR-10 上已经得到了 SOTA，但是在 LSUN 和 ImageNet 这些比较难的数据集上比 GAN 稍微落后一点。

作者认为，扩散模型和 GAN 之间的差距主要由于下面两个因素，也是基于这两个因素，作者对 diffusion model 进行了改进：

GAN 的模型结构已经被探索和改进了很多了
GAN 能更好的平衡多样性和保真度，产生高质量的样本，但不覆盖整个分布

在这里插入图片描述

二、方法

2.1 扩散模型回顾

扩散模型是通过从一个渐进加噪声的逆过程来采样的，也就是说，最开始的时候从噪声 $x_T$ 中开始采样，然后逐步得到噪声更少的 $x_{T-1}$ 、 $x_{T-2}$ … ，直到得到最终的采样结果 $x_0$

扩散模型就是在学习如何从 $x_t$ 得到上一时刻的 $x_{t-1}$ ，扩散模型可以被建模为 $\epsilon_{\theta}(x_t, t)$ ，表示预测到的当前时刻的噪声，训练目标函数是 $||\epsilon_{\theta}(x_t, t) - \epsilon||^2$ ， $\epsilon$ 是真实噪声

2.2 简单的质量测评标准

1、Inception Score（IS）

Inception Score (IS) 是用来衡量一个模型在生成单个类别的样本时能否很好地捕获整个 ImageNet 类别分布

然而，该指标有一个缺点，它并不奖励覆盖整个分布的行为，也不会奖励在一个类别中捕获很多多样性的行为，如果模型记住全数据集一小部分，仍然会有高 IS

2、FID

为了比 IS 更好地捕获多样性，Heusel等人[23] 提出了 Fréchet Inception Distance (FID)，他们认为 FID 与人类判断更一致。FID 提供了一个对两个图像分布在 Inception-V3 [62] 潜空间中距离的对称度量

Nash 等人[42] 提出了 sFID 作为使用空间特征而非标准汇集特征的 FID 版本。他们发现这种指标更好地捕获了空间关系, 奖励具有连贯高级结构的图像分布

作者使用 FID 作为评判指标，因为其能同时捕捉样本的多样性和保真性

作者还使用了 Precision 或 IS 来衡量保真性，使用 Recall 来衡量多样性或分布范围

2.3 模型架构改进

作者为了获得简单有效的模型架构，进行了多种不同的架构消融实验

因为扩散模型使用的是 U-Net，所以作者主要对 U-Net 的结构进行了改进

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

虽然增加模型深度能提高效果，但训练时长增加了，所以不做模型深度的改变

作者还对比了使用不同 head 的效果，最终使用了 64
在这里插入图片描述

2.4 Classifier Guidance

GAN 用于条件合成时，除了精心设计结构外，还会使用很多 class labels，所以作者也想使用分类器来提升扩散模型的效果

方法：作者会在带噪声的图像 $x_t$ 上训练一个分类器，然后使用梯度来指导扩散模型的采样过程来朝着对应类别进行采样，作者这里使用的 ImageNet

本文方法不用额外训练扩散模型，直接在原有训练好的扩散模型上，通过外部的分类器来引导生成期望的图像。唯一需要改动的地方其实只有 sampling 过程中的高斯采样的均值，也即采样过程中，期望噪声图像的采样中心越靠近判别器引导的条件越好。

使用分类模型对生成的图片进行分类，得到预测分数与目标类别的交叉熵，将其对带噪图像求梯度用梯度引导下一步的生成采样。

在这里插入图片描述

三、效果

在这里插入图片描述

在这里插入图片描述

相关文章：

【腾讯云｜云原生】自定制轻量化表单Docker快速部署

Python知识点——高维数据的格式化

java中拼接“

【GitHub】Watch、Star、Fork、Follow 有什么区别？

【多线程面试题二十三】、说说你对读写锁的了解volatile关键字有什么用？

MFC 基础篇(一)

uniapp踩坑之项目：uniapp数字键盘组件—APP端

js原型链

CVF 在 TNEWS 数据集上测试

leetcode:13. 罗马数字转整数(python3解法)

【Linux】：初识git || centos下安装git || 创建本地仓库 || 配置本地仓库 || 认识工作区/暂存区（索引）以及版本库

5G创新突破 | 紫光展锐5G芯片全球首发R17 NR广播端到端业务演示

为什么 conda 不能升级 python 到 3.12

python 按字段查询数据库

Kubernetes rancher、prometheus、ELK的安装

[PHP内核探索]PHP中的哈希表

Angular 4.x 动态创建组件

learning koa2.x

nodejs：开发并发布一个nodejs包

PHP面试之三：MySQL数据库

Python学习之路13-记分

react-core-image-upload 一款轻量级图片上传裁剪插件

tensorflow学习笔记3——MNIST应用篇

Terraform入门 - 3. 变更基础设施

阿里云前端周刊 - 第 26 期

基于Dubbo+ZooKeeper的分布式服务的实现

如何邀请好友注册您的网站(模拟百度网盘)

我与Jetbrains的这些年

延迟脚本的方式

用mpvue开发微信小程序

- 语言经验 - 《c++的高性能内存管理库tcmalloc和jemalloc》

###项目技术发展史

#Linux（make工具和makefile文件以及makefile语法）

#NOIP 2014# day.1 生活大爆炸版石头剪刀布

$redis-setphp_redis Set命令，php操作Redis Set函数介绍

（+4）2.2UML建模图

（1）安装hadoop之虚拟机准备（配置IP与主机名）

（AtCoder Beginner Contest 340） -- F - S = 1 -- 题解

(bean配置类的注解开发)学习Spring的第十三天

(ctrl.obj) : error LNK2038: 检测到“RuntimeLibrary”的不匹配项: 值“MDd_DynamicDebug”不匹配值“

(html转换)StringEscapeUtils类的转义与反转义方法

（ISPRS，2023）深度语义-视觉对齐用于zero-shot遥感图像场景分类

(NSDate) 时间 (time )比较

（二）c52学习之旅-简单了解单片机

(转)Java socket中关闭IO流后，发生什么事？（以关闭输出流为例） .

(轉貼)《OOD启思录》：61条面向对象设计的经验原则 (OO)

./和../以及/和~之间的区别

.mysql secret在哪_MYSQL基本操作（上）

.net core 源码_ASP.NET Core之Identity源码学习

.net 重复调用webservice_Java RMI 远程调用详解，优劣势说明

.net程序集学习心得

.net之微信企业号开发(一) 所使用的环境与工具以及准备工作

/etc/shadow字段详解

[ C++ ] STL---string类的使用指南

[ 常用工具篇 ] POC-bomber 漏洞检测工具安装及使用详解