当前位置: 首页 > news >正文

实时图像编辑大革新!Adobe发布TurboEdit:可以通过文本来编辑图像,编辑时间<0.5秒!

今天给大家介绍Adobe研究院新的研究TurboEdit,可以通过文本来编辑图像,通过一句话就能改变图像中的头发颜色、衣服、帽子、围巾等等。而且编辑飞快,<0.5秒。简直是图像编辑的利器。

相关链接

项目:betterze.github.io/TurboEdit

论文:arxiv.org/abs/2408.08332

论文阅读

TurboEdit: Instant text-based image editing(即时基于文本的图像编辑)

摘要

我们在几步扩散模型的背景下解决了精确图像反转和分离图像编辑的挑战。

我们引入了一种基于编码器的迭代反演技术。反演网络以输入图像和上一步的重建图像为条件,允许对输入图像进行下一次重建校正。我们证明,通过以(自动生成的)详细文本提示为条件,可以在几步扩散模型中轻松实现分离控制。

为了操纵反转图像,我们冻结噪声图并修改文本提示中的一个属性(手动或通过 LLM 驱动的基于指令的编辑),从而生成与输入图像相似的新图像,但只有一个属性发生变化。它可以进一步控制编辑强度并接受指导性文本提示。

我们的方法促进了实时的真实文本引导图像编辑,反转中只需要 8 个功能评估 (NFE)(一次性成本),每次编辑只需要 4 个 NFE。我们的方法不仅速度快,而且明显优于最先进的多步扩散编辑技术。

方法

给定一个输入的真实图像 x0,我们利用 LLaVA 生成详细的标题 c。用户可以修改 c 以创建新的文本提示 c ′。反演过程首先将 x0、c、当前时间步长 t 和之前重建的图像 x0,t+1(初始化为零矩阵)输入反演网络。然后,该网络预测噪声 ϵt,随后将其输入到冻结的 SDXL-Turbo 模型中以生成新的重建图像 x0,t。给定最终的反演噪声 ϵt 以及 c,我们可以使用 SDXL-Turbo 创建反演轨迹并重建 x0,0,这与 x0 非常相似。使用相同的噪声 ϵt 和略有不同的文本提示 c ′,从 t = T 开始到更小的 t,编辑轨迹将与反演轨迹非常相似,生成的图像将与输入图像非常相似,仅在 c' 中指定的属性上有所不同。

实验

当呈现简洁的源文本提示时,文本空间中的微小编辑可能导致图像空间中的布局和结构发生重大变化。相反,在详细的文本提示中进行小文本编辑往往会导致图像空间中发生更简单的变化。结果来自使用相同随机种子的单步图像生成。下面提供了标题和颜色编码的修改区域。

给定详细的源文本和相应的目标文本,我们可以对文本嵌入进行插值,并在图像空间中生成平滑的插值,即使对于较大的结构变化也是如此。

使用 PIE-Bench 数据集中的描述性文本进行图像编辑比较。效率是在单个 H100 GPU 中测量的。我们的方法实现了最佳的背景保留和剪辑相似性,同时比其他方法快得多(4 步 DDIM 除外)。

我们比较了使用描述性文本提示作为指导的方法。尽管我们的方法只需要四个步骤,但它的表现优于多步骤方法,特别是在需要对属性进行重大结构变化的场景中,例如添加帽子或将男人变成女人。相比之下,InfEdit 和 Pix2PixZero 在背景和身份保存方面遇到了困难。同样,Ledits 和 Ledits++ 无法有效处理大的结构变化,这一点从它们无法添加高顶礼帽或将男人变成女人就可以看出。

我们评估了利用指导性提示作为指导的方法。虽然我们的方法不需要任何意外训练,只需要四个采样步骤,但在身份保存(猫到狗)和文本提示对齐(毛衣到 T 恤)方面,它优于 InstructPix2Pix 及其变体。值得一提的是,InstructPix2pIx 及其变体需要收集大规模意外训练集、计算密集型训练和多步骤采样。

结论

据我们所知,我们的方法是第一个在几步扩散模型的背景下探索图像编辑的工作,也是第一个探索扩散模型中基于编码器的反演的工作。我们证明,通过对(自动生成的)详细文本提示进行条件处理,可以在几步扩散模型中轻松实现解缠结控制。我们的方法使用户能够以交互速率进行逼真的文本引导图像编辑,反演和编辑过程都在几毫秒内完成。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 11.2.软件系统分析与设计-数据库分析与设计
  • C语言-数据结构 无向图普里姆Prim算法(邻接矩阵存储)
  • 可交互、会学习、自成长机器人——李德毅院士
  • 【Linux】易忘操作集合
  • 本地如何调百度地图 地图 map baidu-map 百度地图经纬度
  • 蔚来汽车-测开日常实习-部分手撕代码题
  • SAP 批量扩充物料库存地点简介
  • NCU-机器学习-作业1:基于KNN的IRIS分类
  • 进程第五章:进程替换
  • 计算机网络: 第一章 概述_2:计算机网络的性能指标
  • python_使用tkinter建立一个页面的模板
  • 自动化测试面试题(含答案)
  • vue3 响应式 API:shallowRef()和shallowReactive()
  • orcad画封装,如何隐藏引脚编号,线宽
  • 【MySQL】初识MySQL—MySQL是啥,以及如何简单操作???
  • “Material Design”设计规范在 ComponentOne For WinForm 的全新尝试!
  • 【Redis学习笔记】2018-06-28 redis命令源码学习1
  • 2017届校招提前批面试回顾
  • CSS 三角实现
  • css布局,左右固定中间自适应实现
  • Docker 1.12实践:Docker Service、Stack与分布式应用捆绑包
  • scrapy学习之路4(itemloder的使用)
  • Travix是如何部署应用程序到Kubernetes上的
  • 阿里中间件开源组件:Sentinel 0.2.0正式发布
  • 手写双向链表LinkedList的几个常用功能
  • 携程小程序初体验
  • 策略 : 一文教你成为人工智能(AI)领域专家
  • 如何在 Intellij IDEA 更高效地将应用部署到容器服务 Kubernetes ...
  • ​​​​​​​​​​​​​​Γ函数
  • ​DB-Engines 12月数据库排名: PostgreSQL有望获得「2020年度数据库」荣誉?
  • # 数据结构
  • #Z0458. 树的中心2
  • #图像处理
  • (12)Hive调优——count distinct去重优化
  • (3) cmake编译多个cpp文件
  • (C)一些题4
  • (Matlab)基于蝙蝠算法实现电力系统经济调度
  • (分布式缓存)Redis哨兵
  • (附源码)计算机毕业设计大学生兼职系统
  • (全部习题答案)研究生英语读写教程基础级教师用书PDF|| 研究生英语读写教程提高级教师用书PDF
  • (十三)Java springcloud B2B2C o2o多用户商城 springcloud架构 - SSO单点登录之OAuth2.0 根据token获取用户信息(4)...
  • (五十)第 7 章 图(有向图的十字链表存储)
  • (转)scrum常见工具列表
  • (最全解法)输入一个整数,输出该数二进制表示中1的个数。
  • .[hudsonL@cock.li].mkp勒索病毒数据怎么处理|数据解密恢复
  • .net 连接达梦数据库开发环境部署
  • .Net插件开发开源框架
  • .NET文档生成工具ADB使用图文教程
  • /dev/VolGroup00/LogVol00:unexpected inconsistency;run fsck manually
  • @angular/cli项目构建--Dynamic.Form
  • @Autowired多个相同类型bean装配问题
  • @DateTimeFormat 和 @JsonFormat 注解详解
  • @EnableConfigurationProperties注解使用
  • [2018/11/18] Java数据结构(2) 简单排序 冒泡排序 选择排序 插入排序
  • [20190401]关于semtimedop函数调用.txt