当前位置: 首页 > news >正文

【LLM多模态】文生视频综述From Sora What We Can See: A Survey of Text-to-Video Generation

note

  • 现在很多主流的文生视频应该还是Diffusion-based 基于扩散模型的方法
  • 这篇综述将现有研究按照三个维度进行分类:进化生成器(Evolutionary Generators)、卓越追求(Excellent Pursuit)、现实全景(Realistic Panorama)。

文章目录

  • note
  • 一、相关背景
    • 扩散模型
    • 论文简介
  • 二、三种大分类
    • 进化的生成器(Evolutionary Generators)
      • 1. GAN/VAE-Based
      • 2. Diffusion-based 基于扩散模型的方法
      • 3. Autoregressive-based 基于自回归的方法
    • 卓越追求(Excellent Pursuit)
    • 现实全景(Realistic Panorama)
  • 三、实验数据
  • Reference

一、相关背景

论文:From Sora What We Can See: A Survey of Text-to-Video Generation

在这里插入图片描述

扩散模型

待补充。

论文简介

Q: 这篇论文试图解决什么问题?
A: 这篇论文是关于文本到视频生成(Text-to-Video Generation, T2V)领域的综述,它试图解决的问题是如何全面理解并推进这一领域的研究和发展。具体来说,论文从以下几个方面展开:

  1. 技术概览:提供了文本到视频生成技术的基础知识和预备概念,帮助读者理解这一领域的技术背景。
  2. 文献分类:将现有的文献从三个维度进行分类:进化生成器(Evolutionary Generators)、卓越追求(Excellent Pursuit)和现实全景(Realistic Panorama),以系统地审视不同研究方向和方法。
  3. 数据集和评估指标:详细组织和介绍了在文本到视频生成领域广泛使用的数据集和评估指标,为研究者提供了基准和评价标准。
  4. 挑战与开放问题:识别并讨论了当前文本到视频生成领域面临的挑战和未解决的问题,如物体间的一致性运动、长时间视频生成的连贯性等。
  5. 未来研究方向:基于对现有研究和Sora模型的深入分析,提出了未来研究的潜在方向,为该领域的研究者提供了前瞻性的指导。
  6. Sora模型分析:特别关注了由OpenAI开发的Sora模型,这是一个具有分钟级世界模拟能力的视频生成模型,论文尝试从Sora的角度出发,探讨其在文本到视频生成方面的成就和遇到的障碍。

二、三种大分类

截止2024年年中的文生视频大模型:
在这里插入图片描述

进化的生成器(Evolutionary Generators)

1. GAN/VAE-Based

  1. GAN/VAE-Based: 基于生成对抗网络(GAN)和变分自编码器(VAE)的方法,如TGANs-C、IRC-GAN、GODIVA、Text2Filter等。

(1)基于VAE的方法 :

  • 初期创新:[55]提出结合 VAE 和递归注意机制的方法,以生成时间序列帧,并通过文本输入指导。
  • VQ-VAE 的引入:[56]提出 VQ-VAE 模型,通过向量量化结合离散和连续表示的优势,在生成高质量图像、视频和语音方面表现出色。[57]进一步基于 VQ-VAE,展示了预训练模型在下游视频生成任务中的微调能力及零样本能力。

(2)基于GAN的方法 :

  • TGANs-C:[60]提出了一种从文本字幕生成视频的方法,通过3D卷积和多组件损失函数,确保视频在时间上的连贯性和语义上的一致性。
  • 混合模型:[58]提出将 VAE 和 GAN 结合的模型,能够捕捉文本中的静态和动态属性,从而提升基于文本生成视频的复杂性和细致度。
  • 结合 LSTM 的创新:[59]将 GAN 与长短期记忆(LSTM)网络结合,提高了生成视频的视觉质量和语义连贯性,确保生成内容与文本描述的紧密对齐。

2. Diffusion-based 基于扩散模型的方法

在这里插入图片描述

  1. Diffusion-based: 基于扩散模型的方法,如DDPM、Make-A-Video、VideoCrafter1、ModelScopeT2V、DiT等。
  • 视频扩散模型(VDM) 是这一领域的重要突破,通过3D U-Net架构和时间注意机制提升了视频生成的时间连贯性和质量。类似地,MagicVideo 系列模型利用潜在扩散方法应对复杂时间动态和高计算成本,生成高质量的视频。
  • LVDM 模型引入层次化潜在视频扩散,实现长视频的高效生成,并减少计算需求。Show-1 和 PixelDance 结合像素和潜在空间技术确保高分辨率视频输出,而 SVD 利用时间卷积和注意层在潜在空间中高效捕捉时间动态。
  • Tune-A-Video 扩展了2D潜在扩散模型到时空领域,通过稀疏时空注意机制优化计算效率,实现视频生成的时间一致性。
  • VideoLCM 通过一致性蒸馏策略和DDIM求解器提高训练效率,VideoCrafter2 利用数据解耦策略显著提升了视频生成的视觉保真度和运动动态。
  • Make-A-Video 模型和 Imagen Video 采用文本生成图像技术,拓展至视频领域,结合时空超分辨率模型提升生成视频的质量和时间一致性。MotionDiffuse 提供文本驱动的动作生成,细粒度控制输出的多样性和真实性。Text2Video-Zero 专为零样本T2V生成设计,确保跨帧时间一致性。
  • NUWA-XL 利用“多层次扩散”架构生成极长视频,采用“粗到细”策略生成全局一致且细致的视频内容。

3. Autoregressive-based 基于自回归的方法

  1. Autoregressive-based: 基于自回归模型的方法,如NUWA、NUWA-Infinity、Phenaki、VideoGPT等。

  2. NUWA 系列

  • NUWA 采用3D变换器编码器-解码器框架,通过3D临近注意机制实现高质量图像和视频合成,展现了零样本能力。
  • NUWA-Infinity 引入创新的自回归与自回归框架,能够生成可变大小的高分辨率视觉效果,以灵活且高效的方式创建视觉内容。
  1. Phenaki
  • 采用C-ViViT编码器-解码器结构,实现从文本输入生成可变长度的视频,高效地将视频数据压缩成紧凑的令牌化表示,生成连贯且时间一致的视频。
  1. VideoGPT
  • 结合VQ-VAE和变换器架构,通过3D卷积和轴向注意力学习视频的降采样离散潜在表示,捕捉视频序列的复杂时间和空间动态。
  1. Large World Model (LWM)
  • 设计为处理长上下文序列的自回归变换器,融合视频和语言数据,并通过RingAttention机制高效处理大量令牌,最大化上下文意识。
  1. Genie
  • 生成性交互工具,利用时空(ST)变换器进行视频令牌化和动作模型的提取,自回归预测下一帧,生成可控和交互的视频环境。
  1. TATS
  • 设计用于生成长时视频,结合时间无关的VQGAN和时间敏感的变换器,确保视频质量和长时间依赖性的平衡,生成连贯的长视频。
  1. CogVideo
  • 继承CogView2预训练模型的文本-图像对齐知识,通过多帧率分层训练生成关键帧并插补中间帧,采用双通道注意机制和递归插值过程,生成详细且语义一致的视频。

卓越追求(Excellent Pursuit)

  1. Extended Duration: 研究如何生成更长时序的视频,例如Video LDM、Show-1、STUNet、MoCoGAN-HD、Text2Performer等。
  2. Superior Resolution: 专注于生成高分辨率视频的研究,如DAIN、CyclicGen、Softmax-Splatting、FLAVR等。
  3. Seamless Quality: 研究如何生成无缝质量的视频,提高视频的流畅性和观感。

现实全景(Realistic Panorama)

  1. Dynamic Motion: 研究如何处理视频中的动态运动,如LAMP、AnimateDiff、MotionLoRA、Lumiere、Dyson-VDM、ART•V、DynamiCrafter、PixelDance、MoVideo、MicroCinema、ConditionVideo、DreamVideo、TF-T2V、GPT4Motion、Text2Performer等。
  2. Complex Scene: 研究如何生成复杂的场景,如VideoDirectorGPT、FlowZero、VideoDrafter、SenceScape、NUWA-XL、MCVD等。

三、实验数据

在这里插入图片描述

数据集和评估指标(Datasets & Metrics)

  • 数据集包括但不限于:UCF-101、MSR-VTT、DideMo、YT-Tem-180M、WebVid2M、HD-VILA-100M、InternVid、HD-VG-130M、Youku-mPLUG、VAST-27M、Panda-70M、ActNet-200、Charades、Kinetics、ActivityNet、Charades-Ego、SS-V2、How2、HowTo100M、LSMDC、MAD等。
  • 评估指标包括:PSNR/SSIM、IS、FID、CLIP Score、Video IS、FVD/KVD、FCS等。

Reference

[1] From Sora What We Can See: A Survey of Text-to-Video Generation

相关文章:

  • Axure大屏可视化模板在不同领域中的实际应用案例
  • 封装轮播图 (因为基于微博小程序,语法可能有些出入,如需使用需改标签)
  • 软件自动化测试基础:python运算符精讲
  • Python中的八个TXT文件自动化处理脚本:提升工作效率的必备工具
  • 62.【C语言】浮点数的存储
  • unity_Occlusion_Culling遮挡剔除学习
  • 从两个 Excel 表格中提取相关信息,并根据学生的 学号 和 姓名 将第一个表格中的成绩数据填充到第二个表格中(附Python代码)
  • 什么是 JWT?它是如何工作的?
  • vue数组根据某些条件进行二次切割
  • 1.2.1 HuggingFists安装说明-Linux安装
  • 如何用Prometheus监控禁用了Actuator的SpringBoot?
  • 渗透测试--文件上传常用绕过方式
  • Python编码系列—Python责任链模式:打造灵活的请求处理流程
  • 鸿蒙HarmonyOS之封装Http请求工具类
  • Llama微调以及Ollama部署
  • 9月CHINA-PUB-OPENDAY技术沙龙——IPHONE
  • AHK 中 = 和 == 等比较运算符的用法
  • codis proxy处理流程
  • CSS实用技巧干货
  • iOS筛选菜单、分段选择器、导航栏、悬浮窗、转场动画、启动视频等源码
  • Java程序员幽默爆笑锦集
  • Object.assign方法不能实现深复制
  • open-falcon 开发笔记(一):从零开始搭建虚拟服务器和监测环境
  • Protobuf3语言指南
  • vue.js框架原理浅析
  • vue自定义指令实现v-tap插件
  • 跨域
  • 那些被忽略的 JavaScript 数组方法细节
  • 你不可错过的前端面试题(一)
  • 前端性能优化——回流与重绘
  • 实习面试笔记
  • 腾讯优测优分享 | 你是否体验过Android手机插入耳机后仍外放的尴尬?
  • 我的zsh配置, 2019最新方案
  • 这几个编码小技巧将令你 PHP 代码更加简洁
  • 正则表达式小结
  • Nginx惊现漏洞 百万网站面临“拖库”风险
  • ​LeetCode解法汇总2670. 找出不同元素数目差数组
  • ​人工智能书单(数学基础篇)
  • !! 2.对十份论文和报告中的关于OpenCV和Android NDK开发的总结
  • (21)起落架/可伸缩相机支架
  • (Redis使用系列) Springboot 整合Redisson 实现分布式锁 七
  • (二)pulsar安装在独立的docker中,python测试
  • (附源码)基于ssm的模具配件账单管理系统 毕业设计 081848
  • (官网安装) 基于CentOS 7安装MangoDB和MangoDB Shell
  • (七)Java对象在Hibernate持久化层的状态
  • (算法)区间调度问题
  • (学习日记)2024.01.09
  • (一)基于IDEA的JAVA基础12
  • (原创)boost.property_tree解析xml的帮助类以及中文解析问题的解决
  • (转)Android学习笔记 --- android任务栈和启动模式
  • (转)Groupon前传:从10个月的失败作品修改,1个月找到成功
  • ***监测系统的构建(chkrootkit )
  • .[backups@airmail.cc].faust勒索病毒的最新威胁:如何恢复您的数据?
  • .Mobi域名介绍
  • .NET 2.0中新增的一些TryGet,TryParse等方法