当前位置: 首页 > news >正文

【Datawhale AI夏令营第四期】 Datawhale AI夏令营第四期 魔搭-AIGC方向 Task01笔记

报名参加了和鲸的AI夏令营,出于任务要求,也出于我一贯的学习习惯,写篇笔记记录一下自己学习过程中遇到的困难,和积累的资源、经验等。

课程链接:

https://space.bilibili.com/1069874770/channel/collectiondetail?sid=3369551
传送门
在这里插入图片描述

1.1文生图的历程与基石-历史沿革与基础理论

第一课的视频介绍了文生图的历史,以及扩散模型生成图片的过程。在这里插入图片描述
如果跟我一样看得一脸懵逼,面对下图这样一句话的核心思想也是不明就里的话,没关系。在这里插入图片描述
之前在看另一门b站的付费课《图灵的猫:人人都能听懂的AI通识课》时,发现了对这一过程很好的通俗解释——粉条包子。
有一家店的粉条包子好吃,但是距离太远,作者不想去吃,那么就买一个包子交给楼下的包子铺,让他们反推出粉条包子的配方,最终得到一个近似的粉条包子。等他们学会了复制做这个包子,就可以自己发挥出独一无二的包子了。但是作为顾客,我们只需要知道如何点单就可以了。
在这里插入图片描述
扩散模型的优点就是把画画变成了更利于AI模型理解的去噪过程,从而避开了一些数学上很难达到的条件。
看这个网课的数学过程觉得迷惑的朋友也不必焦虑和害怕,初学AIGC学习的目的主要是掌握应用能力,通过调教AI做出效果出色的作品,如果不是立志要走算法工程师这条路的话,真不用太深究算法里面的原理。

1.2最新图像生成技术研究方向-介绍与分析

扩散模型的三大研究方向:基础文生图模型优化,可控生成与图像编辑,生成采样加速
在这里插入图片描述
扩散模型的本质:不断去噪,将一个纯粹的高斯噪声转换为真实有美感的图片。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
视频中介绍的定制化生成我觉得有很大的应用前景,因为如果要创作长篇系列作品的话,保持角色一致性尤为重要。
我也想过给自己的棉花娃娃呆呆做图片、动画等,但是因为市面上没有专门针对他的模型,AIGC很难精准地生成很符合他的形象的内容。就算是用很好的提示词硬描述出跟他外观相似的角色,也很容易在不停生产作品的时候随机歪掉。
在这里插入图片描述
如果能把他的特征作为一个固定的embbeding,每次不管环境如何变化,他这个主体的形象不变,就可以大批量创作了。
在这里插入图片描述
市面上现有的视频模型:根据运动幅度视频长度,梯队分为俩个:Sora、可灵和其他模型(笑死)。
在这里插入图片描述
这几个视频看下来感觉老师选的模型是很新很有代表性的,讲解的细节也很详细,如果对算法有兴趣的话值得反复钻研。
开源短视频生成长视频遇到的“误差累积问题”:每过一帧画面都会发生一点变化,画面质量在变化时也会下降,于是越歪越厉害
在这里插入图片描述
未来的视频生产技术能做什么?特效制作,老电影修复,3D渲染,

课后作业:
https://github.com/modelscope/DiffSynth-Studio?tab=readme-ov-file
传送门
在这里插入图片描述
我试着跑第一个的时候,安装requirements发现老报错误OSError,导致有的库装不上去,经过查询发现要在pip insytall 包名后面加上–user(2个-)。

WARNING: Failed to write executable - trying to use .deleteme logic
ERROR: Could not install packages due to an OSError: [WinError 2] 系统找不到指定的文件。: ‘C:\Python312\Scripts\pygmentize.exe’ -> ‘C:\Python312\Scripts\pygmentize.exe.deleteme’

比如,本来安装requirements.txt的指令是这样:

pip install -r requirements.txt

现在要写成:

pip install -r requirements.txt --user

然后就可以顺利执行了:
在这里插入图片描述
执行之后发现又是一个从来没遇到的乌龙Bug,这就是另一个故事了:详情可以搜索一下《Pytorch、Cuda安装》相关的帖子,比如这个:https://blog.csdn.net/weixin_46726459/article/details/138088057
传送门
在这里插入图片描述
我目前遇到这种电脑环境不配合的问题也只能随缘处理,无论如何都有不能兼容的包:
在这里插入图片描述
最后我还是在云端的这种服务平台上终于跑起来了,但是无法选择要生成的模型,还是玩不了QAQ
在这里插入图片描述
在这里插入图片描述
在学习Task1教程案例的过程中,我发现我误操作踩了个雷:无论是大模型应用开发还是AIGC,教程里面提到的都是《选择方式二》,即GPU……但是我之前一直选择的是CPU,于是跑到某一步的BaseLine就会报错。在这里插入图片描述
另外,在学习手册中,我留意到了几个BOSS直聘上找AIGC相关工作的常见关键词:Lora,ComfyUIControlNet :
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
比如学习群里助教老师指点的更换参考图片,就是Lora的过程:
听着很高级很吓人,实际上还是没那么可怕的~
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在运行BaseLine代码以后,就可以在左侧的文件夹看到AI生成的图片了。(我个人猜测现在市面上AIGC运营实习生啥的岗位是不是就是会跑模型,然后下面会改这些提示词就行了……?最多再用一下Lora啥的给模型指定一下风格,应该也不需要太多的……技能……吧,当然如果本来就是原画设计大佬当然另当别论了)
在这里插入图片描述
在这里插入图片描述
我一开始看到以前的老学员做出的图觉得很惊艳,觉得是这人好厉害能做角色一致性这么高、风格还这么稳定的Sample示例实在是强,结果我自己跑完这些代码以后发现生成的图居然和往届完全一模一样,是因为随机种子还是别的什么原因吗?就算是“紫色中等长发”“粉色连衣裙”这样的表达,也有成千上万种作图的方式才对,为什么就能做到这么精确的原样复制,我现在还不知道这其中的原因,期待日后能学到吧。
在这里插入图片描述
在这里插入图片描述
然后按照教程的指示上传需要的打卡资料即可。
别看步骤简单,我感觉这几步里面能挖掘的东西很多,夏令营期间乃至结束都可以继续深入研究钻研一下其中细节的奥妙,看这个答疑Q&A帖子里面都是满满的干货。有很多解决问题的实战经验可以借鉴。在这里插入图片描述

(因为夏令营要求笔记按task发布,后续应该会整合到一起)

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • Android 文件上传与下载
  • 引导过程与服务控制
  • springbootAl农作物病虫害预警系统-计算机毕业设计源码21875
  • 数据库|SQLServer数据库:数据的基本查询
  • 应急响应:D盾的简单使用.
  • MySQL 5.7 DDL 与 GH-OST 对比分析
  • TCP简易通信实现
  • 【图像超分】论文精读:SeD: Semantic-Aware Discriminator for Image Super-Resolution
  • Feapder 爬虫集群部署指南
  • STM32-USART时序与寄存器状态分析
  • 【区块链+乡村振兴】森林食品认证溯源平台 | FISCO BCOS应用案例
  • Redis02——缓存(缓存更新策略、缓存穿透、缓存雪崩、缓存击穿、缓存工具封装)
  • Boost搜索引擎:项目整体代码及布局
  • 贝叶斯优化算法(Bo)与门控循环单元(GRU)结合的预测模型(Bo-GRU)及其Python和MATLAB实现
  • Haskell HTTP请求:如何解读响应状态
  • 【159天】尚学堂高琪Java300集视频精华笔记(128)
  • Android 架构优化~MVP 架构改造
  • CSS实用技巧
  • JavaScript创建对象的四种方式
  • Javascript设计模式学习之Observer(观察者)模式
  • Java方法详解
  • jquery cookie
  • RedisSerializer之JdkSerializationRedisSerializer分析
  • Yii源码解读-服务定位器(Service Locator)
  • 百度小程序遇到的问题
  • 从0搭建SpringBoot的HelloWorld -- Java版本
  • 前端之Sass/Scss实战笔记
  • 收藏好这篇,别再只说“数据劫持”了
  • 用 vue 组件自定义 v-model, 实现一个 Tab 组件。
  • 如何通过报表单元格右键控制报表跳转到不同链接地址 ...
  • ​​​【收录 Hello 算法】10.4 哈希优化策略
  • #define用法
  • #Js篇:单线程模式同步任务异步任务任务队列事件循环setTimeout() setInterval()
  • #绘制圆心_R语言——绘制一个诚意满满的圆 祝你2021圆圆满满
  • (1)(1.9) MSP (version 4.2)
  • (13)DroneCAN 适配器节点(一)
  • (C11) 泛型表达式
  • (动手学习深度学习)第13章 计算机视觉---图像增广与微调
  • (动手学习深度学习)第13章 计算机视觉---微调
  • (九)c52学习之旅-定时器
  • (十六)视图变换 正交投影 透视投影
  • (一)Neo4j下载安装以及初次使用
  • (转)3D模板阴影原理
  • (转)Linux下编译安装log4cxx
  • (转载)OpenStack Hacker养成指南
  • (最优化理论与方法)第二章最优化所需基础知识-第三节:重要凸集举例
  • *p=a是把a的值赋给p,p=a是把a的地址赋给p。
  • .net framework profiles /.net framework 配置
  • .net 程序发生了一个不可捕获的异常
  • .net反编译的九款神器
  • .NET序列化 serializable,反序列化
  • .sh
  • @Autowired和@Resource装配
  • @EnableAsync和@Async开始异步任务支持
  • @private @protected @public