当前位置：首页 > news >正文

多模态——使用stable-video-diffusion将图片生成视频

news 来源：原创 2024/5/9 14:21:32

多模态——使用stable-video-diffusion将图片生成视频

0. 内容简介
1. 运行环境
2. 模型下载
3. 代码梳理
- 3.1 修改yaml文件中的svd路径
- 3.2 修改DeepFloyDataFiltering的vit路径
- 3.3 修改open_clip的clip路径
- 3.4 代码总体结构
4. 资源消耗
5. 效果预览

0. 内容简介

近期，stabilityAI发布了一个新的项目，是将图片作为基础，生成一个相关的小视频，其实也算是其之前研究内容的扩展。早在stable-diffusion的模型开源出来的时候，除了由prompt生成图片之外，也可以生成连续帧的短视频。

本文主要是体验一下stable-video-diffusion的使用，以及对其使用方法进行简单的介绍。具体原理相关内容并不是我的主要研究方法，也就不在此展开介绍了。

下面的这个小火箭就是项目的示例图片，生成视频之后，小火箭可以发射升空。

test_image

项目地址：
HF：https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt
git：https://github.com/Stability-AI/generative-models
论文地址：
https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

观前提醒：此项目消耗显存较多，最好是48G以上，请根据实际情况判断是否继续尝试。

1. 运行环境

这里提供一下我的运行环境以供大家参考。

系统：CentOS 7
Python：3.10
驱动：470.63.01
CUDA：11.4
cudnn：8.5.0
torch：2.0.1+cu117
torchvision：0.15.2+cu117

其他模块参考https://github.com/Stability-AI/generative-models/blob/main/requirements/pt2.txt.

2. 模型下载

由于国内目前不能正常访问HF了，所以代码的一键运行可能会遇到网络连接的问题，于是可以考虑将模型先下载到本地，然后直接从本地读取模型。需要下载的模型包括：

laion/CLIP-ViT-H-14-laion2B-s32B-b79K
ViT-L/14
stable-video-diffusion-img2vid-xt

3. 代码梳理

代码主要参考官方git上的样例脚本：https://github.com/Stability-AI/generative-models/blob/main/scripts/sampling/simple_video_sample.py

3.1 修改yaml文件中的svd路径

模型的创建用到了yaml配置文件，所以需要把git中的svd_xt.yaml等yaml文件下载下来，并且将其中的模型地址ckpt_path，修改为第2部分中，从HF下载的stable-video-diffusion-img2vid-xt/svd_xt.safetensors的地址。

svd_xt_image_decoder.yaml同理。

3.2 修改DeepFloyDataFiltering的vit路径

注意运行脚本的import部分：

import math
import os
from glob import glob
from pathlib import Path
from typing import Optionalimport cv2
import numpy as np
import torch
from einops import rearrange, repeat
from fire import Fire
from omegaconf import OmegaConf
from PIL import Image
from torchvision.transforms import ToTensor# from scripts.util.detection.nsfw_and_watermark_dectection import \
#     DeepFloydDataFiltering
# from sgm.inference.helpers import embed_watermark
# from sgm.util import default, instantiate_from_config

找到其中的DeepFloyDataFiltering，将其中的路径修改为2中下载的ViT-L-14.pt的路径。

3.3 修改open_clip的clip路径

在python环境中，找到…lib/python3.10/site-packages/open_clip/factory.py，大约在210行的if model_cfg is None之后，添加：

if model_cfg is None:with open('.../CLIP-ViT-H-14-laion2B-s32B-b79K/open_clip_config.json', 'r') as f:model_cfg = json.load(f)['model_cfg']

其中的路径是2中下载的clip的路径。

3.4 代码总体结构

代码的运行就是参考https://github.com/Stability-AI/generative-models/blob/main/scripts/sampling/simple_video_sample.py的结构，我是在jupyter中执行的，下面给出我的代码的结构以供参考，所包含的函数和类只给出了名称，其具体内容均可在原项目的git中找到。

import math
import os
from glob import glob
from pathlib import Path
from typing import Optionalimport cv2
import numpy as np
import torch
from einops import rearrange, repeat
from fire import Fire
from omegaconf import OmegaConf
from PIL import Image
from torchvision.transforms import ToTensor# from scripts.util.detection.nsfw_and_watermark_dectection import \
#     DeepFloydDataFiltering
from sgm.inference.helpers import embed_watermark
from sgm.util import default, instantiate_from_configimport clip
import torchvision.transforms as Tos.environ['CUDA_VISIBLE_DEVICES'] = '0'# 注意这里的路径，是配置文件yaml所在的目录，我直接把yaml放在同级目录了
RESOURCES_ROOT = './'def load_model_weights(path: str):def load_img(path: str) -> torch.Tensor:# 注意将self.clip_model, _ = clip.load中的路径修改为下载的ViT-L-14.pt路径
class DeepFloydDataFiltering(object):def predict_proba(X, weights, biases):def get_unique_embedder_keys_from_conditioner(conditioner):def clip_process_images(images: torch.Tensor) -> torch.Tensor:def get_batch(keys, value_dict, N, T, device):def load_model(...# 在这个方法里修改输入图像的路径
def sample(...# 执行：可以不用Fire，直接调用即可
sample()

所有的方法均可在项目的git中找到，找不到的话可以直接在git搜索对应的函数名。

4. 资源消耗

官方提供的样例图片，尺寸为(1024, 576)，在所有参数均选择默认的情况下，占用显存约为60G。

当我使用的图片为手机原图时，程序很容易就OOM了，所以对于一般手机的相片，可以将尺寸压缩到(960, 720)，显存消耗就大概维持在60G。

图片的裁剪主要用到PIL模块，非常方便：
(1) 加载图片：

from PIL import Image
img = Image.open("image.png")

(2) 裁剪图片：

img = img.crop((left, top, right, bot))

(3) 缩放图片：

img = img.resize((960, 720))

需要注意的是，此项目似乎并不能使用cpu进行计算，也不能将device设置成’cuda:0’的方法来指定显卡，但是可以利用os.environ[‘CUDA_VISIBLE_DEVICES’] = '0’的方法来指定显卡。

关于图片的帧数，目前还没有进一步实验，猜测应该是代码中的num_frames参数来控制。

5. 效果预览

下面展示一下我用自己拍的照片的生成效果：

381b3b2a5906da699b1271fc6695f89f

c06e3a2fa85fb925e6a23fe9064cacc6

6a5943a31f38a8b87e54b0394ddf2d16

从效果来看，在前几帧的生成效果通常比较好，随着帧数的推移，视频的部分内容可能会发生形变。尤其是在图三中，随着西郊线小火车由远及近，模型“脑补”出的列车部分开始变得不够真实。

经过我的一些测试，如果输入的图片是街道，以及行人车辆的话，镜头会顺着街道移动，行人和车辆也会移动；如果输入图片是动物，则需要动物主体的分辨率需要高，否则动物主体可能形变失真，如果是人像或静物，则镜头一般只是左右晃动。

总的来说，模型的效果是让人惊喜，但可以预见的。尽管模型在生成所需step上与之前的工作相比，有了很大的改善，但整个生成过程仍然需要较大的显存消耗。

与此同时，图像生成类任务应该是有可以输入prompt的地方以指导生成，但是在该项目中，暂时还没找到文本编码器。希望随着技术的发展，通过文本来指导图片生成视频的，或利用部分关键帧来生成连续视频的技术，可以早日成熟并普及。在今后的学习中，看到有趣的开源项目，我也会试着体验并与大家分享。

SSM家具个性定制管理系统开发mysql数据库web结构java编程计算机网页源码eclipse项目

动态规划经典例题leetcode思路代码详解

Oracle-客户端连接报错ORA-12545问题

Unity UGUI的自动布局-LayoutGroup（水平布局）组件

深入了解Java中SQL优化的关键技巧与实践

【迅搜03】全文检索、文档、倒排索引与分词

ZKP11.4 Use CI to instantiate Fiat-Shamir

麒麟linux离线安装dotnet core

第十九章解读利用pytorch可视化特征图以及卷积核参数(工具)

Jmeter全流程性能测试实战

Javascript每天一道算法题（十八）——矩阵置零-中等

2023年微软开源八个人工智能项目

linux 开发板以太网通过Ubuntu上外网方法

从书籍结构体中查找定价最高的书籍

一、TIDB基础

【Linux系统编程】快速查找errno错误码信息

AHK 中 = 和 == 等比较运算符的用法

Angular 响应式表单之下拉框

bootstrap创建登录注册页面

C++回声服务器_9-epoll边缘触发模式版本服务器

JavaScript的使用你知道几种？(上)

Linux学习笔记6-使用fdisk进行磁盘管理

MD5加密原理解析及OC版原理实现

npx命令介绍

PhantomJS 安装

select2 取值遍历设置默认值

unity如何实现一个固定宽度的orthagraphic相机

关于extract.autodesk.io的一些说明

机器学习学习笔记一

腾讯视频格式如何转换成mp4 将下载的qlv文件转换成mp4的方法

小程序01:wepy框架整合iview webapp UI

小试R空间处理新库sf

再次简单明了总结flex布局，一看就懂...

翻译 | The Principles of OOD 面向对象设计原则

曜石科技宣布获得千万级天使轮投资，全方面布局电竞产业链 ...

VRRP 虚拟路由冗余协议（华为）

#LLM入门|Prompt#2.3_对查询任务进行分类|意图分析_Classification

#大学#套接字

#基础#使用Jupyter进行Notebook的转换 .ipynb文件导出为.md文件

()、[]、{}、(())、[[]]命令替换

（规划）24届春招和25届暑假实习路线准备规划

（一）Linux+Windows下安装ffmpeg

（转） ns2/nam与nam实现相关的文件

(转)Windows2003安全设置/维护

.NET C# 使用 SetWindowsHookEx 监听鼠标或键盘消息以及此方法的坑

.net core 连接数据库，通过数据库生成Modell

.NET3.5下用Lambda简化跨线程访问窗体控件,避免繁复的delegate,Invoke(转)

.netcore 6.0/7.0项目迁移至.netcore 8.0 注意事项

.NETCORE 开发登录接口MFA谷歌多因子身份验证

.NetCore项目nginx发布

.NET的微型Web框架 Nancy

.NET企业级应用架构设计系列之结尾篇

.net使用excel的cells对象没有value方法——学习.net的Excel工作表问题

@font-face 用字体画图标

多模态——使用stable-video-diffusion将图片生成视频

0. 内容简介

1. 运行环境

2. 模型下载

3. 代码梳理

3.1 修改yaml文件中的svd路径

3.2 修改DeepFloyDataFiltering的vit路径

3.3 修改open_clip的clip路径

3.4 代码总体结构

4. 资源消耗

5. 效果预览

相关文章：