当前位置: 首页 > news >正文

机器学习课程学习周报十三

机器学习课程学习周报十三

文章目录

  • 机器学习课程学习周报十三
    • 摘要
    • Abstract
    • 一、机器学习部分
      • 1. 文生图模型概述
      • 2. Stable Diffusion概述
      • 3. ControlNet概述
      • 4. 概率论复习(二)
    • 总结

摘要

本周的学习内容涵盖了文生图模型、Stable Diffusion、ControlNet以及概率论的复习。文生图模型通过文字编码器、生成模型和隐空间解码器三部分实现,将自然语言转化为图像。Stable Diffusion借助隐扩散模型提高生成效率,并通过条件机制增强可控性。ControlNet通过添加空间条件控制,增强了大型扩散模型的灵活性。最后,对概率论的进一步复习为理解复杂模型奠定了基础。

Abstract

This week’s study covers text-to-image models, Stable Diffusion, ControlNet, and a review of probability theory. Text-to-image models convert natural language into images through three components: text encoder, generative model, and latent space decoder. Stable Diffusion enhances generation efficiency using latent diffusion models and improves controllability through conditional mechanisms. ControlNet introduces spatial conditional control to enhance the flexibility of large diffusion models. Finally, a deeper review of probability theory lays the foundation for understanding complex models.

一、机器学习部分

1. 文生图模型概述

在这里插入图片描述

基本的文生图模型分为3个部分:文字编码器、生成模型以及隐空间解码器部分。文字编码器部分用于将人类理解的自然语言编码为计算机中的向量表达。生成模型部分接受语言描述的向量表达和噪声图的输入,该生成结果为最终图片的压缩版本,该中间产物可以是最终图片在像素空间(pixel space)中的缩略表达,也可以是最终图片在隐空间(latent space)中的压缩表达。隐空间解码器则是将压缩表达的图片从隐空间中解码至人类认知的像素空间中。这三个部分需要分别训练,组合起来后组成了一般的文生图模型。

在这里插入图片描述

文字编码器部分是一种监督学习,首先需利用由文字描述与图片对应成对的数据集训练一个衡量人类自然语言的文字描述与图片对应关系的模型,文字描述与图片分别被编码为其对应在计算机中向量表达,该模型一般利用CLIP Score衡量两者的相似程度。CLIP Score高意味着两者的向量表达之间的距离接近,文字描述与图片的对应关系强,CLIP Score低意味着两者的向量表达之间的距离较远,文字描述与图片的对应关系弱。在文生图模型中,当输入新的文字描述时,文字编码器应能够输出其对应的向量表达。

在这里插入图片描述

在这里插入图片描述

生成模型可以是扩散模型、生成式对抗网络模型以及自回归模型,目前主流的研究方向以及本论文讨论的对象是扩散模型。扩散模型由正向过程、逆向过程和采样过程3个主要部分组成。扩散模型的目标是学习一个正向扩散过程,该过程生成给定数据集的概率分布,迭代添加随机的高斯噪声。然后训练去噪预测器,作用于反向去噪过程。去噪预测器通过学习正向扩散过程中被添加高斯噪声的原始图片与步数预测该步中添加的高斯噪声图,将反向去噪过程中输入的原始噪声图迭代去除去噪预测器每一步预测出的高斯噪声图。当完成所有去噪流程后,最终可以或者整个文生图模型生成结果的压缩表达,该结果可能是像素空间中的缩略图,这类的扩散模型有:Imagen模型等。该结果也可能是隐空间中的压缩表达,还需通过隐空间解码器将其映射回像素空间,这类的扩散模型有:DALL·E系列模型,Stable Diffusion等。

在这里插入图片描述

隐空间解码器是一种无监督学习,需要训练一个自编码器或变分自编码器,其训练过程不需要文字描述与图片对应成对的数据集,仅需要单独的图片数据集。这是因为,编码器或变分自编码器中的编码器则能将像素空间中的图片编码至隐空间,而解码器将原图片潜在表示解码映射回像素空间。自编码器的目的是最小化输入和输出图片的重构误差,而变分自编码器的目标是最大化数据的似然概率,同时最小化潜在表示与标准正态分布之间的KL散度。因此,隐空间解码器由自编码器或变分自编码器中的解码器构成,而编码器则还可以作为图生图模型中的输入。

2. Stable Diffusion概述

在这里插入图片描述

Stable Diffusion是一个基于隐扩散模型(LDMs, Latent Diffusion Models)的文生图模型实现。因此,Stable Diffusion也拥有文生图模型的三个基础部分。为了降低训练扩散模型的算力,隐扩散模型使用自编码器学习从原始像素空间映射至低维隐空间的表达以及隐空间表达解码映射至元素像素空间。因此,Stable Diffusion在隐空间中完成正向扩散过程和反向去噪过程的全部流程,极大地提高了图像生成的效率。除此之外,Stable Diffusion在去噪预测器上选择了Unet主干网络,并引入了条件机制,在Unet 模型中使用交叉注意机制(cross-attention,即上图中QKV模块),能够使用其他模态的数据控制图像的生成,这为扩散模型的可控性生成提供了新思路。

3. ControlNet概述

ControlNet是由Oraichain实验室开发的一种向大型预训练的文生图扩散模型添加空间条件控制的神经网络架构,其在可用于生产的大型扩散模型上表现出色。ControlNet向神经网络块注入了额外的条件(如下图)。假设F(X;θ)为训练好的神经块,参数为θ,它将输入特征图x映射为另一个特征图y。为了将ControlNet添加到预训练的神经块中,新的网络架构需要冻结原始块的参数θ,同时将块克隆到可训练的副本中,该副本具有参数θ_c(如下图)。可训练的副本接受外部条件向量c作为输入。当将这种结构应用于像Stable Diffusion这样的大型模型时,锁定参数可以保留使用数十亿张图像预训练的大型模型,而可训练的副本可以重用这种大规模预训练模型,以建立一个深层、稳健且强大的主干网络来处理各种输入条件。

在这里插入图片描述

ControlNet应用于大型预训练扩散模型Stable Diffusion以实现条件机制的控制,Stable Diffusion去噪预测器的主干网络是一个Unet网络,包含12个编码块、1个中间块和12个解码块。在这25个块中,8个块是下采样或上采样卷积层,而其他17个块是主块,每个主块包含4个Resnet层和2个Vision Transformer(ViT)。每个ViT包含几个交叉注意力和自注意力机制。例如,在图9中,“SD Encoder Block A”包含4个ResNet层和2个ViT,而“×3”表示该块重复三次。文本提示使用CLIP文本编码器进行编码,扩散时间步使用带有位置编码的时间编码器进行编码。

在这里插入图片描述

将ControlNet结构应用于Stable Diffusion的Unet编码器(上图),具体而言, ControlNet创建Unet的12个编码块和1个中间块的训练副本。这个12个编码块的训练副本分别分布在4个分辨率(64 × 64,32 × 32,16 × 16,8 × 8)上,每个分辨率复制3次。ControlNet的输出则被分别添加到U-net的12个解码块和1个中间块中。ControlNet的输入条件预处理器主要包含以下几种形式;

Line_Art:虽然Canny一般已经指定了边缘条件,但Line_Art是素描的完美选择,特别是对于控制生成动漫风格的图像。这个类别中可选择的有更多的线条艺术预处理器,例如Line_Art anime(动漫风格的线条),Line_Art anime denoise (动漫风格的线条但细节较少),Line_Art realistic(现实风格的线条)和Line_Art coarse(现实风格的线条较重)。

Soft_Edge:类似于Canny边缘检测,但提供了更平滑的过渡。Soft_Edge是理想的图像处理结果,能够实现更平滑的边缘检测,并确保视觉效果更加平滑和自然。

Pose:识别图像中人体的骨骼关键点并实现关键点的有序连接。通过操作姿态参数,可指定生成图像中人体的姿势。

Depth:图像深度预处理器从参考图像中预测深度信息。通过控制对图像内部深度的感知,增加生成图像的三维效果,增强了视觉丰富性。

Normal:该条件为指定曲面的方向的法线贴图。图像像素代表的不是颜色值,而是指定每个像素的方向,即表面所面对的方向。Normal和Depth条件都用于预测图像的3D组成。

4. 概率论复习(二)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

总结

本周的学习加深了对生成模型的理解,尤其是在文本到图像生成中的应用。先简要了解了Stable Diffusion和ControlNet的网络模型概况,同时这周是概率论复习的第二周,预计还需要一周时间完成。复习完概率论后就会学习VAE和Diffusion模型数学原理的具体推导。

相关文章:

  • LLM - 使用 XTuner 指令微调 多模态大语言模型(InternVL2) 教程
  • OJ在线评测系统 后端 判题机模块预开发 架构分析 使用工厂模式搭建
  • 【在Linux世界中追寻伟大的One Piece】进程间通信
  • Rapid品牌SSL证书通配符单域名申请窍门
  • 背景图鼠标放上去切换图片过渡效果
  • docker笔记_数据卷、挂载
  • 2024年【烟花爆竹经营单位主要负责人】免费试题及烟花爆竹经营单位主要负责人考试技巧
  • (已解决)vscode如何选择python解释器
  • Docker 教程:如何查看容器的最后 300 行实时日志
  • docker修改默认存储路径和网段
  • pdf编辑转换器怎么用?分享9个pdf编辑、转换方法(纯干货)
  • CentOS Stream 9部署Redis
  • C语言中的一些小知识(三)
  • Scikit-LearnTensorFlow机器学习实用指南(三):一个完整的机器学习项目【下】
  • Android 如何使用jdk命令给应用/APK重新签名。
  • 0x05 Python数据分析,Anaconda八斩刀
  • Android开发 - 掌握ConstraintLayout(四)创建基本约束
  • CAP理论的例子讲解
  • express如何解决request entity too large问题
  • HomeBrew常规使用教程
  • js作用域和this的理解
  • mysql innodb 索引使用指南
  • PV统计优化设计
  • Python - 闭包Closure
  • React-flux杂记
  • Spring Cloud中负载均衡器概览
  • vue:响应原理
  • 不发不行!Netty集成文字图片聊天室外加TCP/IP软硬件通信
  • 基于游标的分页接口实现
  • 普通函数和构造函数的区别
  • 前嗅ForeSpider采集配置界面介绍
  • 学习笔记:对象,原型和继承(1)
  • 用Canvas画一棵二叉树
  • 用quicker-worker.js轻松跑一个大数据遍历
  • 智能合约开发环境搭建及Hello World合约
  • 微龛半导体获数千万Pre-A轮融资,投资方为国中创投 ...
  • 昨天1024程序员节,我故意写了个死循环~
  • #NOIP 2014# day.1 T3 飞扬的小鸟 bird
  • (Oracle)SQL优化基础(三):看懂执行计划顺序
  • (Qt) 默认QtWidget应用包含什么?
  • (windows2012共享文件夹和防火墙设置
  • (附源码)php新闻发布平台 毕业设计 141646
  • (附源码)spring boot建达集团公司平台 毕业设计 141538
  • (每日持续更新)信息系统项目管理(第四版)(高级项目管理)考试重点整理第3章 信息系统治理(一)
  • (十二)Flink Table API
  • (一)Thymeleaf用法——Thymeleaf简介
  • (一)VirtualBox安装增强功能
  • ... 是什么 ?... 有什么用处?
  • .net 7和core版 SignalR
  • .NET CORE Aws S3 使用
  • .net core 控制台应用程序读取配置文件app.config
  • .NET MVC之AOP
  • .NET 中使用 TaskCompletionSource 作为线程同步互斥或异步操作的事件
  • .Net(C#)自定义WinForm控件之小结篇
  • .NET/C# 在代码中测量代码执行耗时的建议(比较系统性能计数器和系统时间)...