当前位置: 首页 > news >正文

【AI学习】AI绘画发展简史

无意中读了一篇发表自2022年的文章,《AI绘画何以突飞猛进? 从历史到技术突破, 一文读懂火爆的AI绘画发展史》,写的比较有意思,科普了好多我原来不知道的历史。

简单提炼一下,做个笔记。

AI绘画重要事件

  • 2012年 Google两位大名鼎鼎的AI大神, 吴恩达和Jeff Dean进行了一场空前的试验,使用了来自youtube的1000万个猫脸图片, 1.6万个CPU整整训练了3天, 最终得到的模型:令人振奋的可以生成一个非常模糊的猫脸
  • 2014年, 对抗生成网络GAN问世:输出的控制力弱,生成图像的分辨率比较低,以及只能模仿, 不是创新
  • 2015年, Google发布图像工具深梦(Deep Dream):更像是一个高级AI版滤镜
  • 2017年,Google通过成千张手绘简笔画图片训练模型:能够绘制一些简笔画,并开源
  • 2017年7月, Facebook联合罗格斯大学和查尔斯顿学院艺术史系三方合作得到的新模型, 号称创造性对抗网络 (CAN, Creative Adversarial Networks):仅限于一些抽象表达
  • 2021年初, OpenAI发布了广受关注的DALL-E系统:AI绘画的水平一般, 画的狐狸勉强可以辨别,但可以按照文字输入提示来进行创作
  • 2021年1月,OpenAI团队开源了新的深度学习模型 CLIP,利用40亿个"文本-图像"训练数据
  • CLIP开源发布几天后, Ryan Murdock,将BigGAN连接到CLIP,将代码发布为Colab笔记The Big Sleep
  • 随后, 西班牙玩家@RiversHaveWings在此基础上发布了CLIP+VQGAN的版本和教程, 这个版本通过Twitter被广为转发传播,引起了AI研究界和爱好者们的高度关注。 而这个ID背后, 正是现在所被熟知的计算机数据科学家 Katherine Crowson
  • 2022年初被大众首先熟知的AI绘画产品 Disco Diffusion:第一个基于CLIP + Diffusion模型的实用化AI绘画产品,问题是无法刻画具体细节并且运行耗时长
  • 2022年7月,Stable Diffusion终于闪亮登场,效果好,并且开源!
  • 同年的MidJourney,最大的优点就是零门槛的交互和非常好的输出结果。 创作者无需任何技术背景就能利用基于Discord的MidJourney bot进行对话式绘画创作

Stable Diffusion的成功

重点是做了一件事,将模型的计算空间, 从像素空间经过数学变换, 在尽可能保留细节信息的情况下降维到一个称之为潜空间(Latent Space)的低维空间。 大大降低了内存和计算要求。比如Stable Diffusion所使用的潜空间编码缩减因子为8, 就是图像长和宽都缩减8倍, 一个512x512的图像在潜空间中直接变为64x64, 节省了8x8=64倍的内存!

这就是Stable Diffusion之所以又快又好的原因, 它能快速(以秒计算)生成一张饱含细节的512x512图像, 只需要一张消费级的8GB 2060显卡即可!

事实上, 类似Stable Diffusion这种AI生成模型的一个核心思路, 或者说很多深度学习AI模型的核心思路, 就是把人类创作的内容, 表示为某个高维或者低维数学空间里的一个向量(更简单的理解, 一串数字)。如果这个"内容->向量"的转化设计足够合理, 那么人类所有的创作内容都可以表示为某个数学空间里的部分向量而已。而存在于这个无限的数学空间里的其他向量, 正是那些理论上人类可能创造, 但尚未被创造出来的内容。通过逆向的"向量->内容"的转换, 这些还没被创造的内容就被AI挖掘出来了。

这正是目前MidJourney, Stable Diffusion这些最新AI绘画模型所做的事情。AI可以说是在创作新的内容, 也可以说是新绘画作品的搬运工。 AI产生的新绘画作品在数学意义上一直客观存在, 只是被AI通过很聪明的方式, 从数学空间里还原出来, 而已。

其他

LAION 是一个跨全球的非营利机器学习研究机构,2022年3月开放了当前最大规模的开源跨模态数据库LAION-5B,包含接近60亿(5.85 Billion)个图片-文本对, 可以被用来训练所有从文字到图像的的生成模型,也可以用于训练 CLIP这种用于给文本和图像的匹配程度打分的模型,而这两者都是现在 AI 图像生成模型的核心。
除了提供以上的海量训练素材库,LAION 还训练 AI 根据艺术感和视觉美感,给LAION-5B 里图片打分, 并把得高分的图片归进了一个叫 LAION-Aesthetics 的子集。
事实上, 最新的AI绘画模型包括 Stable Diffusion都是利用LAION-Aesthetics这个高质量数据集训练的。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • Unreal像素流ubantu os部署细节
  • 使用Maven创建一个Java项目并在repository中使用
  • qwen2 VL 多模态图文模型;图像、视频使用案例
  • ElK 8 收集 Nginx 日志
  • windows server2012 配制nginx安装为服务的时候,直接跳要安装.net框架,用自动的安装,直接失败的解决。
  • 从入门到精通,带你探索适合新手的视频剪辑工具
  • STM32快速复习(十二)FLASH闪存的读写
  • 海外服务器哪个速度最快且性能稳定
  • 鸿萌数据恢复服务: 修复 Windows, Mac, 手机中 “SD 卡无法读取”错误
  • 【git系列】git中的那些迷惑的术语以及概念详解
  • Linux(ubuntu)(c语言程序)
  • 算法训练——day16快乐数
  • 硬件开篇——体系架构
  • Rust GUI框架Tauri V1 入门
  • 拓扑排序基础
  • -------------------- 第二讲-------- 第一节------在此给出链表的基本操作
  • 3.7、@ResponseBody 和 @RestController
  • ES学习笔记(12)--Symbol
  • leetcode378. Kth Smallest Element in a Sorted Matrix
  • oldjun 检测网站的经验
  • Otto开发初探——微服务依赖管理新利器
  • vue中实现单选
  • Work@Alibaba 阿里巴巴的企业应用构建之路
  • 官方解决所有 npm 全局安装权限问题
  • 配置 PM2 实现代码自动发布
  • 前端存储 - localStorage
  • 如何用vue打造一个移动端音乐播放器
  • 收藏好这篇,别再只说“数据劫持”了
  • 小程序button引导用户授权
  • 用Visual Studio开发以太坊智能合约
  • # Kafka_深入探秘者(2):kafka 生产者
  • (13):Silverlight 2 数据与通信之WebRequest
  • (13)Latex:基于ΤΕΧ的自动排版系统——写论文必备
  • (AtCoder Beginner Contest 340) -- F - S = 1 -- 题解
  • (Charles)如何抓取手机http的报文
  • (WSI分类)WSI分类文献小综述 2024
  • (附源码)spring boot智能服药提醒app 毕业设计 102151
  • (回溯) LeetCode 78. 子集
  • (汇总)os模块以及shutil模块对文件的操作
  • (十二)Flink Table API
  • (已解决)Bootstrap精美弹出框模态框modal,实现js向modal传递数据
  • (转) ns2/nam与nam实现相关的文件
  • (转)大型网站的系统架构
  • ****三次握手和四次挥手
  • **PyTorch月学习计划 - 第一周;第6-7天: 自动梯度(Autograd)**
  • .NET 3.0 Framework已经被添加到WindowUpdate
  • .NET 4.0中使用内存映射文件实现进程通讯
  • .NET Core 中插件式开发实现
  • .NET Framework 3.5安装教程
  • .net framework4与其client profile版本的区别
  • .Net Web窗口页属性
  • .NET 动态调用WebService + WSE + UsernameToken
  • .net 流——流的类型体系简单介绍
  • .NET/C# 使用反射调用含 ref 或 out 参数的方法
  • .net反编译的九款神器