当前位置: 首页 > news >正文

Diffusers代码学习: T2I Adapter

T2I Adapter是一款轻量级适配器,用于控制文本到图像模型并为其提供更准确的结构指导。它通过学习文本到图像模型的内部知识与外部控制信号(如边缘检测或深度估计)之间的对齐来工作。

T2I Adapter的设计很简单,条件被传递到四个特征提取块和三个下采样块。这使得针对不同的条件快速而容易地训练不同的适配器,这些适配器可以插入到文本到图像模型中。T2I Adapter与ControlNet类似,只是它更小(约77M个参数),速度更快,因为它在扩散过程中只运行一次。缺点是性能可能比ControlNet稍差。

文本到图像模型依赖于提示来生成图像,但有时,仅凭文本可能不足以提供更准确的结构指导。T2I Adapter允许您提供额外的控制图像来指导生成过程。例如,您可以提供一个Canny的图像(黑色背景上图像的白色轮廓)来引导模型生成具有类似结构的图像。

# 以下代码为程序运行进行设置

import os
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
mport cv2
import numpy as np

from PIL import Image

# 程序需要能够支持加载图片

from diffusers.utils import load_image

# 以下代码加载边缘检测图的原型图片

image = load_image("https://hf-mirror.com/datasets/hf-internal-testing/diffusers-images/resolve/main/sd_controlnet/hf-logo.png")

image = np.array(image)

low_threshold = 100
high_threshold = 200

# 以下代码生成边缘检测图

image = cv2.Canny(image, low_threshold, high_threshold)

image = Image.fromarray(image)
 

# 以下代码加载StableDiffusionAdapter自动管道,及T2I Adapter
import torch
from diffusers import StableDiffusionAdapterPipeline, T2IAdapteradapter = T2IAdapter.from_pretrained("TencentARC/t2iadapter_canny_sd15v2", torch_dtype=torch.float16)
pipeline = StableDiffusionAdapterPipeline.from_pretrained("runwayml/stable-diffusion-v1-5",adapter=adapter,torch_dtype=torch.float16,
)
pipeline.to("cuda")

# 以下代码加载并处理提示词,基于边缘检测图生成图片

generator = torch.Generator("cuda").manual_seed(0)


image = pipeline(
prompt="cinematic photo of a plush and soft midcentury style rug on a wooden floor, 35mm photograph, film, professional, 4k, highly detailed",
image=image,
generator=generator,
).images[0]

image.show()

以下是边缘检测图的原型图片

图片

以下是边缘检测图的原型图片

图片

以下是生成的图片

图片

相关文章:

  • 在vscode 中使用npm的问题
  • 【Spring Boot】异常处理
  • cad导入su线条不在一个平面怎么办?
  • Java | Leetcode Java题解之第132题分割回文串II
  • 分享一个用python写的本地WIFI密码查看器
  • 【risc-v】arm和riscv有什么关系或者联系?
  • Elasticsearch 管道查询语言 ES|QL 现已正式发布
  • 归一化在神经网络训练中的作用
  • 如何在React中创建自定义Hooks
  • python数据分析-ZET财务数据分析
  • Java数据结构与算法(盛水的容器)
  • 搜索与图论:八皇后问题
  • 【MySQL】服务器配置和管理
  • 28 - 只出现一次的最大数字(高频 SQL 50 题基础版)
  • Functional ALV系列 (10) - 将填充FieldCatalog封装成函数
  • CEF与代理
  • Java 23种设计模式 之单例模式 7种实现方式
  • Mysql数据库的条件查询语句
  • Node项目之评分系统(二)- 数据库设计
  • PAT A1120
  • Spring技术内幕笔记(2):Spring MVC 与 Web
  • uva 10370 Above Average
  • Vultr 教程目录
  • yii2权限控制rbac之rule详细讲解
  • 表单中readonly的input等标签,禁止光标进入(focus)的几种方式
  • 创建一种深思熟虑的文化
  • 基于Dubbo+ZooKeeper的分布式服务的实现
  • 如何设计一个微型分布式架构?
  • 入门级的git使用指北
  • 使用权重正则化较少模型过拟合
  • 数据可视化之 Sankey 桑基图的实现
  • 用Python写一份独特的元宵节祝福
  • 追踪解析 FutureTask 源码
  • 自定义函数
  • 【运维趟坑回忆录 开篇】初入初创, 一脸懵
  • shell使用lftp连接ftp和sftp,并可以指定私钥
  • 容器镜像
  • ​LeetCode解法汇总307. 区域和检索 - 数组可修改
  • ​MySQL主从复制一致性检测
  • ​ubuntu下安装kvm虚拟机
  • ​草莓熊python turtle绘图代码(玫瑰花版)附源代码
  • ​人工智能之父图灵诞辰纪念日,一起来看最受读者欢迎的AI技术好书
  • #我与Java虚拟机的故事#连载02:“小蓝”陪伴的日日夜夜
  • $.ajax()
  • (1)(1.11) SiK Radio v2(一)
  • (6)【Python/机器学习/深度学习】Machine-Learning模型与算法应用—使用Adaboost建模及工作环境下的数据分析整理
  • (C语言)球球大作战
  • (done) ROC曲线 和 AUC值 分别是什么?
  • (MIT博士)林达华老师-概率模型与计算机视觉”
  • (第61天)多租户架构(CDB/PDB)
  • (动手学习深度学习)第13章 计算机视觉---微调
  • (非本人原创)我们工作到底是为了什么?​——HP大中华区总裁孙振耀退休感言(r4笔记第60天)...
  • (七)Java对象在Hibernate持久化层的状态
  • (三)终结任务
  • (四)搭建容器云管理平台笔记—安装ETCD(不使用证书)