当前位置：首页 > news >正文

【AI学习】AI绘画发展简史

news 来源：原创 2024/9/20 9:41:33

无意中读了一篇发表自2022年的文章，《AI绘画何以突飞猛进? 从历史到技术突破, 一文读懂火爆的AI绘画发展史》，写的比较有意思，科普了好多我原来不知道的历史。

简单提炼一下，做个笔记。

AI绘画重要事件

2012年 Google两位大名鼎鼎的AI大神, 吴恩达和Jeff Dean进行了一场空前的试验，使用了来自youtube的1000万个猫脸图片, 1.6万个CPU整整训练了3天, 最终得到的模型：令人振奋的可以生成一个非常模糊的猫脸
2014年, 对抗生成网络GAN问世：输出的控制力弱，生成图像的分辨率比较低，以及只能模仿, 不是创新
2015年， Google发布图像工具深梦(Deep Dream)：更像是一个高级AI版滤镜
2017年，Google通过成千张手绘简笔画图片训练模型：能够绘制一些简笔画，并开源
2017年7月, Facebook联合罗格斯大学和查尔斯顿学院艺术史系三方合作得到的新模型, 号称创造性对抗网络 (CAN, Creative Adversarial Networks)：仅限于一些抽象表达
2021年初, OpenAI发布了广受关注的DALL-E系统：AI绘画的水平一般, 画的狐狸勉强可以辨别，但可以按照文字输入提示来进行创作
2021年1月，OpenAI团队开源了新的深度学习模型 CLIP，利用40亿个"文本-图像"训练数据
CLIP开源发布几天后， Ryan Murdock，将BigGAN连接到CLIP，将代码发布为Colab笔记The Big Sleep
随后, 西班牙玩家@RiversHaveWings在此基础上发布了CLIP+VQGAN的版本和教程, 这个版本通过Twitter被广为转发传播，引起了AI研究界和爱好者们的高度关注。而这个ID背后, 正是现在所被熟知的计算机数据科学家 Katherine Crowson
2022年初被大众首先熟知的AI绘画产品 Disco Diffusion：第一个基于CLIP + Diffusion模型的实用化AI绘画产品，问题是无法刻画具体细节并且运行耗时长
2022年7月，Stable Diffusion终于闪亮登场，效果好，并且开源！
同年的MidJourney，最大的优点就是零门槛的交互和非常好的输出结果。创作者无需任何技术背景就能利用基于Discord的MidJourney bot进行对话式绘画创作

Stable Diffusion的成功

重点是做了一件事，将模型的计算空间, 从像素空间经过数学变换, 在尽可能保留细节信息的情况下降维到一个称之为潜空间(Latent Space)的低维空间。大大降低了内存和计算要求。比如Stable Diffusion所使用的潜空间编码缩减因子为8, 就是图像长和宽都缩减8倍, 一个512x512的图像在潜空间中直接变为64x64, 节省了8x8=64倍的内存!

这就是Stable Diffusion之所以又快又好的原因, 它能快速(以秒计算)生成一张饱含细节的512x512图像, 只需要一张消费级的8GB 2060显卡即可!

事实上, 类似Stable Diffusion这种AI生成模型的一个核心思路, 或者说很多深度学习AI模型的核心思路, 就是把人类创作的内容, 表示为某个高维或者低维数学空间里的一个向量(更简单的理解, 一串数字)。如果这个"内容->向量"的转化设计足够合理, 那么人类所有的创作内容都可以表示为某个数学空间里的部分向量而已。而存在于这个无限的数学空间里的其他向量, 正是那些理论上人类可能创造, 但尚未被创造出来的内容。通过逆向的"向量->内容"的转换, 这些还没被创造的内容就被AI挖掘出来了。

这正是目前MidJourney, Stable Diffusion这些最新AI绘画模型所做的事情。AI可以说是在创作新的内容, 也可以说是新绘画作品的搬运工。 AI产生的新绘画作品在数学意义上一直客观存在, 只是被AI通过很聪明的方式, 从数学空间里还原出来, 而已。

其他

LAION 是一个跨全球的非营利机器学习研究机构，2022年3月开放了当前最大规模的开源跨模态数据库LAION-5B，包含接近60亿(5.85 Billion)个图片-文本对, 可以被用来训练所有从文字到图像的的生成模型，也可以用于训练 CLIP这种用于给文本和图像的匹配程度打分的模型，而这两者都是现在 AI 图像生成模型的核心。
除了提供以上的海量训练素材库，LAION 还训练 AI 根据艺术感和视觉美感，给LAION-5B 里图片打分, 并把得高分的图片归进了一个叫 LAION-Aesthetics 的子集。
事实上, 最新的AI绘画模型包括 Stable Diffusion都是利用LAION-Aesthetics这个高质量数据集训练的。