当前位置: 首页 > news >正文

【人工智能】Transformers之Pipeline(八):文生图/图生图(text-to-image/image-to-image)

目录

一、引言 

二、文生图/图生图(text-to-image/image-to-image)

2.1 文生图

2.2 图生图

2.3 技术原理

2.3.1 Diffusion扩散模型原理

2.3.2 Stable Diffusion扩散模型原理

2.4 文生图实战

2.4.1 SDXL 1.0

 2.4.2 SD 2.0

2.5 模型排名

三、总结


一、引言 

 pipeline(管道)是huggingface transformers库中一种极简方式使用大模型推理的抽象,将所有大模型分为音频(Audio)、计算机视觉(Computer vision)、自然语言处理(NLP)、多模态(Multimodal)等4大类,28小类任务(tasks)。共计覆盖32万个模型

今天介绍CV计算机视觉的第四篇,文生图/图生图(text-to-image/image-to-image)。transformers的pipeline只有图生图(image-to-image),没有(text-to-image),在实际应用中,文生图更加主流,通常先进行文生图,再进行图生图。所以本篇文章重点介绍文生图,附带进行图生图的讲解。本篇也未使用transformers的pipeline,而是使用DiffusionPipeline,目前主流的文生图、图生图方法。本文更加注重如何使用代码进行文生图、图生图,如果你的工作不需要部署api服务,推荐您使用AUTOMATIC1111的stable-diffusion-webui。

如果您是windows,建议搜索“秋叶大佬整合包”,一键部署属于你的文生图工作台。 

当然,如果您的土豪,推荐您使用midjourney,封装的更加简单易用。 

二、文生图/图生图(text-to-image/image-to-image)

2.1 文生图

输入提示词,模型理解提示词,生成图片。

2.2 图生图

图像处理与增强,通过给定的提示词,对源图像进行加工与处理,使其满足清晰度、定制等需求。

2.3 技术原理

我们以Stable Diffusion为例,讲讲文生图/图生图的原理。

2.3.1 Diffusion扩散模型原理

将到扩散模型,一定要了解DDPM: Denoising Diffusion Probabilistic Models(基于概率的降噪扩散模型),主要包含两个过程:

  • Diffusion Process (又被称为Forward Process) 扩散过程:对图片进行加噪,每一步都往图片上加入一个高斯分布的噪声,直到图片变为一个基本是纯高斯分布的噪声
  • Denoise Process(又被称为Reverse Process)降噪过程:基于UNet对含有噪音的图片进行逐步还原,直到还原至清晰可见的图片。

2.3.2 Stable ​​​​​​​Diffusion扩散模型原理

主要由AutoEncoder、扩散模型和Condition条件模块三部分组成。具体方法是

  •  首先需要训练好一个自编码模型(AutoEncoder,包括一个编码器 E和一个解码器D )。
  • 扩散过程:利用编码器对图片进行压缩,然后在潜在表示空间上做diffusion操作,
  • 文本处理:SD采用OpenAI的CLIP(Contrastive Language-Image Pre-Training语言图片对比学习预训练模型)进行文字到图片的处理,具体使用的是clip-vit-large-patch14。对于输入text,送入CLIP text encoder后得到最后的hidden states,其特征维度大小为77x768(77是token的数量),这个细粒度的text embeddings将以cross attention的方式送入UNet中。
  • 去噪过程:去噪实际上就是SD文生图模型的推理过程,通过UNet网络对图片/文字的embedding层层去噪,得到最终需要的图片。 

2.4 文生图实战

2.4.1 SDXL 1.0

首先要安装扩散diffusers、invisible_watermark、transformers、accelerate、safetensors等依赖库:

pip install diffusers invisible_watermark transformers accelerate safetensors  -i https://mirrors.cloud.tencent.com/pypi/simple

其次,引用diffusers库中的DiffusionPipeline类,下载基础模型stabilityai/stable-diffusion-xl-base-1.0和精炼模型stabilityai/stable-diffusion-xl-refiner-1.0。使用基础base(文生图)模型生成(噪声)潜在数据,然后使用专门去噪的refiner(图生图)细化模型进行高分辨率去噪处理。

import os
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
os.environ["CUDA_VISIBLE_DEVICES"] = "2"from diffusers import DiffusionPipeline
import torchbase = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, use_safetensors=True, variant="fp16")
base.to("cuda")
refiner = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-xl-refiner-1.0",text_encoder_2=base.text_encoder_2,vae=base.vae,torch_dtype=torch.float16,use_safetensors=True,variant="fp16",
)
refiner.to("cuda")# Define how many steps and what % of steps to be run on each experts (80/20) here
n_steps = 40
high_noise_frac = 0.8prompt = "A beautiful sexy girl"# run both experts
image = base(prompt=prompt,num_inference_steps=n_steps,denoising_end=high_noise_frac,output_type="latent",
).imagesimage = refiner(prompt=prompt,num_inference_steps=n_steps,denoising_start=high_noise_frac,image=image,
).images[0]
image.save("base+refiner.png")

python run_sd_xl_base_1.0+refiner.py运行后:

来看一下针对提示词"A beautiful sexy girl"生成的图片,好棒!​​​​​​​

 2.4.2 SD 2.0

安装的python库同SDXL 1.0,同样采用diffusers的DiffusionPipeline下载模型

import os
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
os.environ["CUDA_VISIBLE_DEVICES"] = "2"from diffusers import DiffusionPipeline
import torch#pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, use_safetensors=True, variant="fp16")
pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-2", torch_dtype=torch.float16, use_safetensors=True, variant="fp16")
pipe.to("cuda")
prompt = "a beautiful sexy girl"
image = pipe(prompt).images[0]
image.save("sd-xl.png")

python run_sd.py运行后 

来看一下效果:

对比来看,SDXL 1.0要更强一些,当然在实际的应用中,要花非常多的精力去抽卡、调正反向提示词,前往C站下载并使用别人训练好的lora与embedding。这是一门大学问。

2.5 模型排名

在huggingface上,我们将文生图(text-to-image)模型按下载量从高到低排序:在开源模型领域,stabilityai的stable-diffusion没有对手!闭源领域,独有Midjourney!

三、总结

本文对文生图/图生图(text-to-image/image-to-image)从概述、SD技术原理、SD文生图实战、模型排名等方面进行介绍,读者可以基于DiffusionPipeline使用文中的极简代码进行文生图的初步体验,如果想更加深入的了解,再次推荐您使用stable-diffusion-webui。

期待您的3连+关注,如何还有时间,欢迎阅读我的其他文章:

《Transformers-Pipeline概述》

【人工智能】Transformers之Pipeline(概述):30w+大模型极简应用

《Transformers-Pipeline 第一章:音频(Audio)篇》

【人工智能】Transformers之Pipeline(一):音频分类(audio-classification)

【人工智能】Transformers之Pipeline(二):自动语音识别(automatic-speech-recognition)

【人工智能】Transformers之Pipeline(三):文本转音频(text-to-audio/text-to-speech)

【人工智能】Transformers之Pipeline(四):零样本音频分类(zero-shot-audio-classification)

《Transformers-Pipeline 第二章:计算机视觉(CV)篇》

【人工智能】Transformers之Pipeline(五):深度估计(depth-estimation)​​​​​​​

【人工智能】Transformers之Pipeline(六):图像分类(image-classification)

【人工智能】Transformers之Pipeline(七):图像分割(image-segmentation)​​​​​​​

【人工智能】Transformers之Pipeline(八):图生图(image-to-image)

【人工智能】Transformers之Pipeline(九):物体检测(object-detection)

【人工智能】Transformers之Pipeline(十):视频分类(video-classification)

【人工智能】Transformers之Pipeline(十一):零样本图片分类(zero-shot-image-classification)

【人工智能】Transformers之Pipeline(十二):零样本物体检测(zero-shot-object-detection)

《Transformers-Pipeline 第三章:自然语言处理(NLP)篇》

【人工智能】Transformers之Pipeline(十三):填充蒙版(fill-mask)

【人工智能】Transformers之Pipeline(十四):问答(question-answering)

【人工智能】Transformers之Pipeline(十五):总结(summarization)

【人工智能】Transformers之Pipeline(十六):表格问答(table-question-answering)

【人工智能】Transformers之Pipeline(十七):文本分类(text-classification)

【人工智能】Transformers之Pipeline(十八):文本生成(text-generation)

【人工智能】Transformers之Pipeline(十九):文生文(text2text-generation)

【人工智能】Transformers之Pipeline(二十):令牌分类(token-classification)

【人工智能】Transformers之Pipeline(二十一):翻译(translation)

【人工智能】Transformers之Pipeline(二十二):零样本文本分类(zero-shot-classification)

《Transformers-Pipeline 第四章:多模态(Multimodal)篇》

【人工智能】Transformers之Pipeline(二十三):文档问答(document-question-answering)

【人工智能】Transformers之Pipeline(二十四):特征抽取(feature-extraction)

【人工智能】Transformers之Pipeline(二十五):图片特征抽取(image-feature-extraction)

【人工智能】Transformers之Pipeline(二十六):图片转文本(image-to-text)

【人工智能】Transformers之Pipeline(二十七):掩码生成(mask-generation)

【人工智能】Transformers之Pipeline(二十八):视觉问答(visual-question-answering)

相关文章:

  • C语言之“ 分支和循环 ” (2)
  • 阿里云CDN-边缘脚本EdgeScript的CI/CD实践
  • MTK Android12 SystemUI 手势导航 隐藏导航栏底部布局
  • Tomcat 使用和配置文件(详解)
  • Spring Boot - 通过ServletRequestHandledEvent事件实现接口请求的性能监控
  • <数据集>停车场空位识别数据集<目标检测>
  • LabVIEW位移检测系统
  • 【CPP】slt-list由认识到简化模拟实现深度理解~
  • 储能集装箱动环监控系统,动环监控在集装箱的应用方案@卓振思众
  • 安科瑞Home EMS:引领家庭光储新纪元,让每一度电都尽在掌握
  • 旋转图像
  • Linux驱动开发—平台总线模型详解
  • 【多线程-从零开始-捌】阻塞队列,消费者生产者模型
  • Unity Android端截图保存并获取展示
  • Milvus向量数据库的简介以及用途
  • 【108天】Java——《Head First Java》笔记(第1-4章)
  • flutter的key在widget list的作用以及必要性
  • java8 Stream Pipelines 浅析
  • js学习笔记
  • markdown编辑器简评
  • MySQL几个简单SQL的优化
  • node-glob通配符
  • python_bomb----数据类型总结
  • React Native移动开发实战-3-实现页面间的数据传递
  • React 快速上手 - 06 容器组件、展示组件、操作组件
  • React系列之 Redux 架构模式
  • SQLServer之创建显式事务
  • 短视频宝贝=慢?阿里巴巴工程师这样秒开短视频
  • 面试总结JavaScript篇
  • 前端性能优化--懒加载和预加载
  • 使用parted解决大于2T的磁盘分区
  • 算法之不定期更新(一)(2018-04-12)
  • 找一份好的前端工作,起点很重要
  • Semaphore
  • 数据可视化之下发图实践
  • 组复制官方翻译九、Group Replication Technical Details
  • ​LeetCode解法汇总2182. 构造限制重复的字符串
  • # 深度解析 Socket 与 WebSocket:原理、区别与应用
  • #Datawhale AI夏令营第4期#AIGC方向 文生图 Task2
  • #php的pecl工具#
  • #图像处理
  • #我与Java虚拟机的故事#连载05:Java虚拟机的修炼之道
  • #我与Java虚拟机的故事#连载13:有这本书就够了
  • (4) openssl rsa/pkey(查看私钥、从私钥中提取公钥、查看公钥)
  • (day 2)JavaScript学习笔记(基础之变量、常量和注释)
  • (LNMP) How To Install Linux, nginx, MySQL, PHP
  • (二) Windows 下 Sublime Text 3 安装离线插件 Anaconda
  • (附源码)ssm基于微信小程序的疫苗管理系统 毕业设计 092354
  • (力扣)循环队列的实现与详解(C语言)
  • (十二)devops持续集成开发——jenkins的全局工具配置之sonar qube环境安装及配置
  • (一)十分简易快速 自己训练样本 opencv级联haar分类器 车牌识别
  • .NET Core WebAPI中使用swagger版本控制,添加注释
  • .net2005怎么读string形的xml,不是xml文件。
  • .NET简谈设计模式之(单件模式)
  • .Net中wcf服务生成及调用