当前位置: 首页 > news >正文

《Discriminative Class Tokens for Text-to-Image Diffusion Models》ICCV2023

摘要

论文讨论了文本到图像扩散模型的最新进展,这些模型能够生成多样化和高质量的图像。然而,生成的图像常常缺乏细节,并且由于输入文本的歧义性,容易产生错误。为了解决这些问题,作者提出了一种非侵入式的微调技术,利用预训练分类器的判别信号来指导生成过程,从而在保留自由形式文本表达潜力的同时,实现高精度。

概述

拟解决的问题:文本到图像的扩散模型在处理含有词汇歧义的输入或生成细节时表现不佳。此外,使用标记数据集训练的模型,由于数据集规模较小,限制了模型的表达能力,影响了生成图像的质量和多样性。

创新之处:

  • 提出了一种微调技术,通过迭代修改文本到图像扩散模型中单个输入标记的嵌入,使用分类器来引导图像生成,使其更接近给定的目标类别。
  • 该方法快速且不需要类别内图像集合或重新训练耐噪声分类器。
  • 能够在低资源环境下用于增强训练数据,并且能够揭示用于训练引导分类器的数据信息。

方法

  • 引入了一个与外部分类器标签类对应的标记(S_{c}),通过迭代生成新图像并优化标记表示,以根据预训练分类器提高类别概率。
  • 使用了一种新技术——梯度跳跃,它只将梯度传播通过扩散过程的最后阶段。
  • 通过生成与目标类相关的图像,同时保留预训练扩散模型的全部表达能力,避免了对标记图像的训练。

提出了一种新颖的微调技术,通过在文本到图像扩散模型中引入一个与预训练分类器标签相对应的判别性标记 S_{c}​,来解决输入文本中的词汇歧义问题并增强生成图像的细节表现。该技术通过迭代优化这个标记的嵌入表示,利用分类器的反馈来引导图像生成过程,从而生成更加准确和细致的图像,而无需重新训练整个模型或依赖于特定类别的图像集合。这种方法不仅提高了生成图像的质量,还保持了模型对自由形式文本的表达能力,同时避免了对分类器进行噪声数据的再训练。 

3.1 条件扩散模型

训练条件扩散模型时,目标是学习一个过程,它能够预测在每一步添加的噪声,同时考虑条件输入。这通常通过最小化一个损失函数来实现,该函数衡量模型预测的噪声与实际噪声之间的差异。

其中: 

 

在生成图像时,我们通常希望模型能够生成特定类别的图像。例如,如果输入文本是“一只猫”,我们希望生成的图像是猫的图像,而不是其他任何物体。为了实现这一点,可以利用分类器来引导扩散过程,使其偏向于生成特定类别的图像。在条件扩散模型中,可以通过使用预训练分类器的梯度信息来指导生成过程。这里的“梯度”是指损失函数相对于模型参数的导数,它指示了如何调整参数以最小化损失函数。在这种情况下,分类器的梯度可以用来调整生成模型的参数,使其生成的图像更符合特定类别的特征。

缺点:

  • 当使用分类器指导扩散过程时,分类器需要在整个生成过程中对每一步产生的部分去噪图像进行评估。这意味着分类器必须能够准确地处理和理解在不同去噪阶段的图像,包括那些仍然包含噪声的图像。
  • 在生成图像的每一步中,都需要利用分类器的输出来指导图像的生成方向。这就意味着分类器必须在生成过程的每个阶段都被调用,这会增加整体的计算负担和延迟。

为了解决这个问题,提出了一种无分类器的方法。这种方法不依赖于图像分类器的梯度,而是通过对条件 p_{\theta }\left (x|y \right ) 和无条件 p_{\theta }\left (x \right )、去噪模块之间的差异进行建模来近似隐式分类器的梯度。条件模块和无条件模块使用相同的 \varepsilon _{\theta }\left ( x_{t},y \right ) 参数化,条件网络通过使用空句子变为无条件的。最终的去噪网络正式表示如下:

 其中 w 是决定条件引导强度的超参数。

3.2 判别令牌嵌入

判别令牌是一种特殊的标记S_{c},它被嵌入到文本到图像的扩散模型中,用于代表特定的类别信息。这些令牌与预训练的分类器相关联,目的是在生成过程中引入类别特定的指导信号。

判别令牌的嵌入向量通常初始化为与目标类别相关的已知标记的嵌入,例如,如果目标是生成特定种类的鸟类图像,判别令牌的嵌入可能会初始化为“鸟”这个词的嵌入。这种初始化有助于模型更快地学习并适应特定的类别特征。

迭代优化过程:

  1. 生成与优化:在生成图像的过程中,模型会使用包含判别令牌的文本提示(如“一张具有S_{c}的老虎猫的照片”)。这里的“Sc”代表判别令牌,它在每次迭代中被优化以更好地代表目标类别。
  2. 分类器反馈:生成的图像被送入预训练的分类器,分类器的输出(如类别概率分布)被用来提供反馈,指导判别令牌的进一步优化。
  3. 损失函数:通常使用交叉熵损失函数来衡量分类器对生成图像的分类结果与目标类别之间的差异。通过最小化这个损失,判别令牌的嵌入被调整以提高生成图像的类别准确性。

3.3 梯度跳跃

为了提高训练效率并减少资源消耗,论文中提到了“梯度跳跃”技术。在这种技术中,只有扩散过程的最后阶段(即最后的去噪步骤)会更新判别令牌的嵌入。这种方法减少了在每一步中都需要反向传播的计算负担,同时仍然能够有效地优化判别令牌。

 

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 网络安全-dom破坏结合jq漏洞以及框架漏洞造成的xss-World War 3
  • FastAPI 中的错误处理:如何让错误信息更有价值
  • 上传文件到钉盘流程详解
  • SpringBoot整合WebSocket实现消息推送或聊天功能示例
  • 【计算机网络】HTTPHTTPS
  • 时序必读论文06|PITS : 基于非依赖策略学习时序patch特征表示
  • C和指针:指针
  • vue+IntersectionObserver + scrollIntoView 实现电梯导航
  • Android 车联网——汽车系统介绍(附2)
  • 工具知识 | Linux 常用命令参考手册
  • 深度学习——数据预处理,张量降维
  • 位段、枚举、联合
  • S32G EB tresos AutoCore下载和激活方法
  • 52.【C语言】 字符函数和字符串函数(strcat函数)
  • Oracle EBS中AR模块的财务流程概览
  • 【Leetcode】104. 二叉树的最大深度
  • AHK 中 = 和 == 等比较运算符的用法
  • Akka系列(七):Actor持久化之Akka persistence
  • CSS 三角实现
  • Java小白进阶笔记(3)-初级面向对象
  • Node + FFmpeg 实现Canvas动画导出视频
  • React-redux的原理以及使用
  • Spring框架之我见(三)——IOC、AOP
  • vue2.0开发聊天程序(四) 完整体验一次Vue开发(下)
  • windows下mongoDB的环境配置
  • 案例分享〡三拾众筹持续交付开发流程支撑创新业务
  • 程序员该如何有效的找工作?
  • 从tcpdump抓包看TCP/IP协议
  • 代理模式
  • 给Prometheus造假数据的方法
  • 七牛云 DV OV EV SSL 证书上线,限时折扣低至 6.75 折!
  • 什么软件可以剪辑音乐?
  • 系统认识JavaScript正则表达式
  • FaaS 的简单实践
  • ​ArcGIS Pro 如何批量删除字段
  • ​HTTP与HTTPS:网络通信的安全卫士
  • (42)STM32——LCD显示屏实验笔记
  • (C语言)字符分类函数
  • (Demo分享)利用原生JavaScript-随机数-实现做一个烟花案例
  • (pytorch进阶之路)扩散概率模型
  • (zt)基于Facebook和Flash平台的应用架构解析
  • (八十八)VFL语言初步 - 实现布局
  • (草履虫都可以看懂的)PyQt子窗口向主窗口传递参数,主窗口接收子窗口信号、参数。
  • (带教程)商业版SEO关键词按天计费系统:关键词排名优化、代理服务、手机自适应及搭建教程
  • (附源码)计算机毕业设计SSM疫情社区管理系统
  • (蓝桥杯每日一题)love
  • (三) prometheus + grafana + alertmanager 配置Redis监控
  • (实战篇)如何缓存数据
  • (转) ns2/nam与nam实现相关的文件
  • (转)IIS6 ASP 0251超过响应缓冲区限制错误的解决方法
  • .Net 6.0--通用帮助类--FileHelper
  • .Net Web项目创建比较不错的参考文章
  • .php文件都打不开,打不开php文件怎么办
  • .pub是什么文件_Rust 模块和文件 - 「译」
  • @data注解_SpringBoot 使用WebSocket打造在线聊天室(基于注解)