当前位置: 首页 > news >正文

【论文+视频控制】23.08DragNUWA1.5:通过集成文本、图像和轨迹来进行视频生成中的细粒度控制 (24.01.08开源最新模型)

论文链接:DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory
代码:https://github.com/ProjectNUWA/DragNUWA
在这里插入图片描述

一、简介

中国科学技术大学+微软亚洲研究院 在 NUWA多模态模型、 Stable Video Diffusion 、UniMatch基础上提出的可控视频合成方法
在这里插入图片描述
提出了同时(simultaneously )引入文本、图像和轨迹信息,从语义(semantic)、空间(spatial)和时间角度(temporal perspectives) 对视频内容进行·细粒度控制(fine-grained control)。。
为了解决当前研究中开放域轨迹控制(open-domain trajectory control )限制的问题,我们提出了三个方面的轨迹建模
一个轨迹采样器TS,a Trajectory Sampler):保证任意轨迹(arbitrary trajectories,)的开放域控制
一个多尺度融合MF,a Multiscale Fusion):不同细粒度(granularities)的控制轨迹
自适应训练策略(AT, Adaptive Training): 生成一致的(consistent)的视频。

在这里插入图片描述

二、主要方法

DragNUWA训练流程概述。DragNUWA支持三种可选输入:文本p、图像s和轨迹g,并专注于从三个方面设计轨迹。首先,轨迹采样器(TS)从开放域视频流中动态采样轨迹。其次,多尺度融合(MF)将轨迹与UNet架构的每个块中的文本和图像深度集成。最后,自适应训练(AT)将模型从光流条件调整为用户友好的轨迹。最终,DragNUWA能够处理具有多个对象及其复杂轨迹的开放域视频。
在这里插入图片描述

三、相关工作(需要的知识储备

  1. 21.11.NUWA: 神经视觉世界创造的视觉合成预训练模型 Visual Synthesis Pre-training for Neural visUal World
    creAtion
  2. 22.09 Make-A-Video :Meta AI 提出一种直接将文本到图像 (T2I) 生成的巨大最新进展转换为文本到视频 (T2V) 的方法 :Text-to-Video Generation without Text-Video Data
  3. 22.10 Imagen Video : Imagen video: High ̃video generation with diffusion models
  4. 23.02 GEN1 : Runway : 基于扩散模型的结构和内容引导视频合成 Structure and Content-Guided Video Synthesis with Diffusion Models

3.1 NUWA的由来 (Neural visUal World creAtion)

Neural visual World creation (神经视觉世界创造)
在这里插入图片描述
视觉多模态预训练框架
一种统一的多模态预训练模型N̈UWA,该模型可以为各种视觉合成任务生成新的或操作现有的视觉数据(即图像和视频)。为了同时覆盖不同场景的语言、图像和视频,设计了一个 3D 变压器编码器-解码器框架,该框架不仅可以将视频作为 3D 数据处理,还可以将文本和图像分别调整为 1D 和 2D 数据。还提出了一种 3D 近邻注意 (3DNA) 机制来考虑视觉数据的性质并降低计算复杂度。
在这里插入图片描述

3.3 Imagen Video

本文提出了一种基于视频扩散模型级联的以文本情境来生成视频的系统,即用图像增强技术来生成视频——Imagen Video。 给定一个文本提示符(a text prompt),Imagen Video 使用基本视频生成模型和一系列时空交织的视频超分模型,来生成高清视频。我们描述了如何将该系统扩展为一个高清晰度的 text2video模型,包括设计决策,如在一定的分辨率下,时空超分模型的全卷积层的选择,和扩散模型(Diffusion Model)的v-parameterization的选择。此外,我们确认并迁移了一些研究成果,从以前基于diffusion的图像生成工作,到我们视频生成设置。 最终,我们将渐进式蒸馏(progressive distillation)运用至我们的视频生成模型中,用免分类(classier-free) 的引导函数来引导生成快速、高品质的样本。我们发现 Imagen Video 不仅能够生成高保真度的视频,并且具有高度的可控性,了解世界常识(world knowledge)。它能够生成不同艺术风格、能够理解3D对象的视频和文本动画。
在这里插入图片描述

附录:代码主要借鉴

主要借鉴于 Stable Video Diffusion  、 Hugging Face、   UniMatch

Stable Video Diffusion

Hugging Face

UniMatch:流量、立体和深度估计

一个统一的模型对三种运动和3D感知的任务:(流量、立体和深度估计获得):

文章目录

  • 一、简介
  • 二、主要方法
  • 三、相关工作(需要的`知识储备`)
    • 3.1 NUWA的由来 (`Neural visUal World creAtion`)
    • 3.3 Imagen Video
  • 附录:代码主要借鉴
    • [Stable Video Diffusion](https://github.com/Stability-AI/generative-models)
    • [Hugging Face](https://github.com/huggingface)
    • UniMatch:流量、立体和深度估计

相关文章:

  • linux下vsc的自动切换输入法解决方案
  • 【数据库】第三章 MySQL库表操作
  • 【AI接口】语音版、文心一言大模型和AI绘图、图片检测API
  • php基础学习之变量
  • Python项目——计算器(PySide6+Pyinstaller)
  • 盖子的c++小课堂:第二十六讲:双向链表
  • JavaEE-微服务-Vuex
  • 浅谈拨测在网络安全中的应用
  • 最强生产力|卸载并重装Anaconda3
  • LeetCode.670. 最大交换
  • “深入理解RabbitMQ交换机的原理与应用“
  • mysql 导入数据 1273 - Unknown collation: ‘utf8mb4_0900_ai_ci‘
  • 【江科大】STM32:中断系统(理论)
  • 5G随身WiFi都是骗人的?5G随身WiFi靠谱品牌推荐,哪个5G随身WiFi最好用
  • SPA vs MPA vs PWA
  • ES6指北【2】—— 箭头函数
  • [微信小程序] 使用ES6特性Class后出现编译异常
  • 【comparator, comparable】小总结
  • C++类的相互关联
  • CSS 提示工具(Tooltip)
  • css系列之关于字体的事
  • docker python 配置
  • HTTP中的ETag在移动客户端的应用
  • iOS高仿微信项目、阴影圆角渐变色效果、卡片动画、波浪动画、路由框架等源码...
  • Java 多线程编程之:notify 和 wait 用法
  • JavaScript创建对象的四种方式
  • js ES6 求数组的交集,并集,还有差集
  • React-Native - 收藏集 - 掘金
  • Spring技术内幕笔记(2):Spring MVC 与 Web
  • Stream流与Lambda表达式(三) 静态工厂类Collectors
  • 工作中总结前端开发流程--vue项目
  • 诡异!React stopPropagation失灵
  • 数组大概知多少
  • postgresql行列转换函数
  • ​RecSys 2022 | 面向人岗匹配的双向选择偏好建模
  • #!/usr/bin/python与#!/usr/bin/env python的区别
  • ### Cause: com.mysql.jdbc.exceptions.jdbc4.MySQLTr
  • #我与Java虚拟机的故事#连载03:面试过的百度,滴滴,快手都问了这些问题
  • #中国IT界的第一本漂流日记 传递IT正能量# 【分享得“IT漂友”勋章】
  • (ZT)北大教授朱青生给学生的一封信:大学,更是一个科学的保证
  • (二)基于wpr_simulation 的Ros机器人运动控制,gazebo仿真
  • (二)什么是Vite——Vite 和 Webpack 区别(冷启动)
  • (附源码)计算机毕业设计SSM基于健身房管理系统
  • (原創) 博客園正式支援VHDL語法著色功能 (SOC) (VHDL)
  • (转)GCC在C语言中内嵌汇编 asm __volatile__
  • .NET 简介:跨平台、开源、高性能的开发平台
  • .Net语言中的StringBuilder:入门到精通
  • [ 第一章] JavaScript 简史
  • [.NET 即时通信SignalR] 认识SignalR (一)
  • [Android]How to use FFmpeg to decode Android f...
  • [android学习笔记]学习jni编程
  • [AutoSAR 存储] 汽车智能座舱的存储需求
  • [C/C++]数据结构 循环队列
  • [c语言]小课堂 day2
  • [Err] 1055 - Expression #1 of ORDER BY clause is not in GROUP BY clause and contains nonaggregated c