当前位置: 首页 > news >正文

Stable Video文本生成视频公测地址——Scaling Latent Video Diffusion Models to Large Datasets

近期,Stability AI发布了首个开放视频模型——"Stable Video",该创新工具能够将文本和图像输入转化为生动的场景,将概念转换成动态影像,生成出电影级别的作品,旨在满足广泛的视频应用需求,包括媒体、娱乐、教育和营销等领域。"Stable Video"提供了两种图像到视频的模型,能够生成14帧和25帧的视频,用户还可以自行设置帧率,范围在3到30帧每秒之间。该模型适用于多种视频应用任务,包括从单一图像进行多视角合成,以及在多视角数据集上进行微调。

Stable Video Diffusion模型是一种先进的文本到视频和图像到视频生成模型,专为高分辨率视频设计。研究者通过三个阶段的训练过程,强调了预训练数据集的重要性,并提出了一种系统化的数据策划方法来培养一个强大的基础模型。该模型不仅为多视图合成提供了强有力的运动和多视角先验,还能够微调成多视图扩散模型,以高效的方式生成对象的多个视角。

此外,通过特定的运动提示和LoRA模块的训练,模型能够实现显式运动控制。研究者们通过策划工作流程,将大型视频集合转化为高质量的数据集,并训练出了超越先前所有模型的尖端文生视频和图生视频模型。他们的方法在减少数据集大小、提高分辨率和视频帧数方面表现出色,并在与其他顶尖模型的比较中证明了其有效性。总而言之,这一方法有效地分离了运动和内容,在多视图合成方面取得了显著成果。其主要步骤如下:

  1. 数据处理与标注:首先提出了一个大型视频数据集(LVD),包含580M个标注过的视频剪辑对,使用三种不同的合成字幕方法对每个片段进行注释,而通过进一步研究发现,现有数据集中含有可能降低最终视频模型性能的样本,如运动量少、文本过多或审美价值低的视频。因此,作者以2FPS进行计算,并通过删除任何平均光流幅度低于某一阈值的视频来过滤掉静态场景。

  2. 图像预训练:讨论了图像预训练作为视频模型训练流程中的第一个阶段。作者将图像预训练(image pretraining)作为视频模型训练流程的第一个阶段。他们在初始模型上使用了一个预训练的图像扩散模型——即Stable Diffusion 2.1——以为模型提供强大的视觉表现力

  3. 策划视频预训练数据集:作者提出了一个两阶段的视频预训练数据集策划流程。第一阶段涉及图像预训练,其中利用了空间布局初始化自预训练图像模型的视频模型,并展示了在预训练大型且多样化的数据集,然后在较小但质量更高的数据集上进行微调的效果提升。第二阶段关注于策划适合预训练的视频数据集。作者通过计算光流(optical flow)来过滤掉不需要的样本以创建一个更适宜的预训练数据集

  4. 高质量视频微调:这一阶段的目的是在一个高质量、高分辨率的视频子集上对模型进行精细化调整。在前两个阶段(图像预训练和视频预训练)的基础上,通过进一步的高质量微调来提升最终模型的性能。在第三阶段期间,插入时间卷积和注意力层,这些是在每个空间卷积和注意力层之后添加的,与仅训练时间层的工作或完全基于LLM(大型语言模型)的方法形成对比。

Stability AI还发布了"Stable Video Diffusion"的代码,其github仓库地址为:https://github.com/nateraw/stable-diffusion-videos,可以进入仓库使用colab一键体验。另外Stable Video Diffusion官网已经全面开放使用,可以直接进入官网https://www.stablevideo.com/,点击start with text。

输入对应的prompt如:A tranquil, realistic depiction of a sunset over calm ocean waters, with the sky ablaze in vibrant oranges and reds, reflecting softly on the water's surface,然后选择比例和风格,点击Generate即可开始生成视频。

图像和视频的生成已成为目前人工智能最火热的应用,而掌握良好的提示工程基础已经成为提高工作效率、优化系统设计和提供良好用户体验的重要前提之一。无论是对于从事信息技术相关工作的专业人士,还是对于对提示技术感兴趣的初学者,我推荐学习一下《提示工程基础》这门课程、课程将介绍提示工程的基本知识,然后逐步过渡到高级提示技术。您还将学习如何防止提示误用,以及如何在与基础模型 (FM, Foundation Model) 互动时减少偏差。

课程链接:https://study.163.com/course/introduction.htm?from=AWS-social-FY24-KOC-HJS

相关文章:

  • 【小程序】媒体API能力集成指南——图片API
  • web运行时安全
  • 【并发编程】线程基础知识
  • 我是如何写作的?
  • 深入理解分库、分表、分库分表
  • C#学习总结
  • 大数据技术(一)
  • Visual Studio C++项目远程断点调试客户现场程序方法
  • 蓝桥杯(3.1)
  • 李沐动手学习深度学习——4.2练习
  • 面试数据库篇(mysql)- 06覆盖索引
  • 一句话讲清楚数据库中事务的隔离级别(通俗易懂版)
  • 贪心 Leetcode 53 最大子数组和
  • Pycharm的下载安装与汉化
  • 【Mybatis】多表映射 第二期
  • 自己简单写的 事件订阅机制
  • android 一些 utils
  • ES10 特性的完整指南
  • extjs4学习之配置
  • HTML-表单
  • JavaScript异步流程控制的前世今生
  • JDK 6和JDK 7中的substring()方法
  • jQuery(一)
  • k8s 面向应用开发者的基础命令
  • Laravel Telescope:优雅的应用调试工具
  • markdown编辑器简评
  • NLPIR语义挖掘平台推动行业大数据应用服务
  • Shell编程
  • spring + angular 实现导出excel
  • springboot_database项目介绍
  • 机器学习中为什么要做归一化normalization
  • 通过来模仿稀土掘金个人页面的布局来学习使用CoordinatorLayout
  • 在electron中实现跨域请求,无需更改服务器端设置
  • raise 与 raise ... from 的区别
  • %3cli%3e连接html页面,html+canvas实现屏幕截取
  • (1)(1.8) MSP(MultiWii 串行协议)(4.1 版)
  • (zt)基于Facebook和Flash平台的应用架构解析
  • (附源码)springboot“微印象”在线打印预约系统 毕业设计 061642
  • (力扣)循环队列的实现与详解(C语言)
  • (深度全面解析)ChatGPT的重大更新给创业者带来了哪些红利机会
  • (转)Linux下编译安装log4cxx
  • (转)自己动手搭建Nginx+memcache+xdebug+php运行环境绿色版 For windows版
  • ******IT公司面试题汇总+优秀技术博客汇总
  • .NET 中的轻量级线程安全
  • .Net8 Blazor 尝鲜
  • .Net程序猿乐Android发展---(10)框架布局FrameLayout
  • .NET平台开源项目速览(15)文档数据库RavenDB-介绍与初体验
  • .NET学习教程二——.net基础定义+VS常用设置
  • .net中生成excel后调整宽度
  • .sys文件乱码_python vscode输出乱码
  • [ CTF ] WriteUp- 2022年第三届“网鼎杯”网络安全大赛(白虎组)
  • [ 网络基础篇 ] MAP 迈普交换机常用命令详解
  • [2019.3.5]BZOJ1934 [Shoi2007]Vote 善意的投票
  • [android] 看博客学习hashCode()和equals()
  • [C++]拼图游戏