当前位置: 首页 > news >正文

对标Gen-2!Meta发布新模型,进军文生视频赛道

随着扩散模型的飞速发展,诞生了Midjourney、DALL·E 3、Stable Difusion等一大批出色的文生图模型。但在文生视频领域却进步缓慢,因为文生视频多数采用逐帧生成的方式,这类自回归方法运算效率低下、成本高。

即便使用先生成关键帧,再生成中间帧新方法。如何插值帧数,保证生成视频的连贯性也有很多技术难点。

科技、社交巨头Meta则提出了一种全新的文生视频模型Emu Video。该模型使用了分解式生成方法,先生成一张图像,再以该图像和文本作为条件生成视频,不仅生成的视频逼真符合文本描述,算力成本也非常低。

论文:https://emu-video.metademolab.com/assets/emu_video.pdf

在线demo:https://emu-video.metademolab.com/#/demo

Emu Video的核心技术创新在于,使用了分解式生成方法。之前,其他文生视频模型是直接从文本描述映射到高维视频空间。

但由于视频维度非常高,直接映射非常困难。Emu Video的策略是首先生成一张图像,然后以该图像和文本作为条件,生成随后的视频帧

由于图像空间维度较低,生成第一帧更容易,然后生成后续帧只需要预测图像如何变化,这样整个任务难度很大程度降低。

图片

技术流程方面, Emu Video利用先前训练好的文本到图像模型来固定空间参数,初始化视频模型

然后仅需要训练时间参数来进行文本到视频任务。在训练时,模型以视频片段及相应文本描述作为样本进行学习。

图片

在推理时,给定一段文本后,先用文本到图像部分生成第一帧图像,再输入该图像及文本到视频部分生成完整的视频。

文本到图像

Emu Video使用了一个训练好的文本到图像模型,可以生成很逼真的图片。为了让生成的图片更有创意,这个模型在海量的图像和文本描述进行预训练,学到了很多图像的风格,例如,朋克、素描、油画、彩绘等。

图片

文本到图像模型采用了U-Net结构,包含编码器和解码器。编码器包含多层卷积块,并降采样获得较低分辨率的特征图。

解码器包含对称的上采样和卷积层,最终输出图像。两个文本编码器(T5和CLIP模型)被并行加入,分别对文本进行编码产生文本特征。

图像到视频

这个模块使用了跟文本到图像模块类似的结构,也是一个编码器-解码器结构。不同的是增加了处理时间信息的模块,也就是说可以学习如何把图片中的内容变化成一个视频。

在训练的过程中,研究人员输入一小段视频,随机抽取其中的一帧图片,让这个模块学习根据这张图片和对应的文本生成整段视频

在实际使用时,先用第一个模块生成第一帧图片,然后输入这张图片和文本给第二个模块,让它生成整个视频。

图片

这种分解的方法让第二个模块的任务变得比较简单,只需要预测图片会随着时间而怎么变化和运动,就可以生成流畅逼真的视频。

为了生成更高质量逼真的视频,研究人员进行了一些技术优化:1)采用零终端信噪比的散度噪声计划,能够直接生成高清视频,无需级联多个模型。之前的计划在训练和测试阶段信噪比存在偏差,导致生成质量下降。

2)利用预训练文本到图像模型固定参数,保留图像质量和多样性,生成第一帧时不需额外训练数据和计算成本。

3)设计多阶段训练策略,先在低分辨率训练快速采样视频信息,再在高分辨率进行微调,避免全程高分辨率的计算量大。

图片

在人类评估中显示,Emu Video生成的4秒长视频比其他方法更具质量和遵循文本的要求。语义一致性超过86%,质量一致性超过91%,明显优于Gen-2、Pika Labs、Make-A Video等知名商业模型。

本文素材来源Meta官网,如有侵权请联系删除

相关文章:

  • idea使用问题(idea相关)快捷键及窗口没有service
  • threejs中获取不规则物体中心点坐标
  • 使用Redis实现接口防抖
  • 字节跳动开源基于SD1.5的 MagicAnimate 一张照片秒变真人舞蹈视频
  • 灰度发布专题---3、Nginx+Lua灰度发布
  • C++空类的那点事儿
  • 虾皮在线定价工具:知虾轻松制定有竞争力的价格策略
  • 一张网页截图,AI帮你写前端代码,前端窃喜,终于不用干体力活了
  • Python技术操作1-高效办公:将文本、图片和表格信息批量写入Word文档
  • QList简单使用
  • Web安全-初识SQL注入(一)
  • 关于 Python 的最全面试题
  • 矩阵的初等变换
  • Maven——Maven发展历程
  • MySQL查看和修改时区
  • #Java异常处理
  • [ 一起学React系列 -- 8 ] React中的文件上传
  • 【MySQL经典案例分析】 Waiting for table metadata lock
  • electron原来这么简单----打包你的react、VUE桌面应用程序
  • ES6 ...操作符
  • ES6 学习笔记(一)let,const和解构赋值
  • learning koa2.x
  • Markdown 语法简单说明
  • Spring Boot MyBatis配置多种数据库
  • SpriteKit 技巧之添加背景图片
  • STAR法则
  • Vue 重置组件到初始状态
  • 百度贴吧爬虫node+vue baidu_tieba_crawler
  • 闭包--闭包作用之保存(一)
  • 基于阿里云移动推送的移动应用推送模式最佳实践
  • 前端面试之CSS3新特性
  • Oracle Portal 11g Diagnostics using Remote Diagnostic Agent (RDA) [ID 1059805.
  • 【云吞铺子】性能抖动剖析(二)
  • SAP CRM里Lead通过工作流自动创建Opportunity的原理讲解 ...
  • # 执行时间 统计mysql_一文说尽 MySQL 优化原理
  • #14vue3生成表单并跳转到外部地址的方式
  • #define用法
  • #NOIP 2014# day.1 生活大爆炸版 石头剪刀布
  • (0)Nginx 功能特性
  • (6)设计一个TimeMap
  • (c语言版)滑动窗口 给定一个字符串,只包含字母和数字,按要求找出字符串中的最长(连续)子串的长度
  • (java)关于Thread的挂起和恢复
  • (Oracle)SQL优化技巧(一):分页查询
  • (保姆级教程)Mysql中索引、触发器、存储过程、存储函数的概念、作用,以及如何使用索引、存储过程,代码操作演示
  • (紀錄)[ASP.NET MVC][jQuery]-2 純手工打造屬於自己的 jQuery GridView (含完整程式碼下載)...
  • (三)centos7案例实战—vmware虚拟机硬盘挂载与卸载
  • (十二)devops持续集成开发——jenkins的全局工具配置之sonar qube环境安装及配置
  • (转)C#调用WebService 基础
  • (转)IIS6 ASP 0251超过响应缓冲区限制错误的解决方法
  • (转载)在C#用WM_COPYDATA消息来实现两个进程之间传递数据
  • * CIL library *(* CIL module *) : error LNK2005: _DllMain@12 already defined in mfcs120u.lib(dllmodu
  • ***汇编语言 实验16 编写包含多个功能子程序的中断例程
  • .Net 6.0 处理跨域的方式
  • .net core 源码_ASP.NET Core之Identity源码学习
  • .NET core 自定义过滤器 Filter 实现webapi RestFul 统一接口数据返回格式