当前位置: 首页 > news >正文

【数字人】9、DiffTalk | 使用扩散模型基于 audio-driven+对应人物视频 合成说话头(CVPR2023)

在这里插入图片描述

论文:DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven Portraits Animation

代码:https://sstzal.github.io/DiffTalk/

出处:CVPR2023

特点:需要音频+对应人物的视频来合成新的说话头视频,嘴部抖动严重

一、背景

talking head 合成任务相关的工作最近都集中于提升合成视频的质量或者提升模型的泛化性,很少有工作聚焦于同时提升这两个方面,而这对实际的使用很重要

所以,本文作者引入扩散模型来实现 audio-driven talking head,同时使用的声音信号、面部、关键点来作为驱动信号,可以在不同的的说话人上进行泛化

当前的研究现状:

  • 2D:主要是基于 GAN 来实现 audio-to-lip 的驱动,也就是主要是声音到嘴型的驱动,不同的模特都可以被驱动,能泛化于不同的模特之间(因为主要是驱动的嘴巴,其他部分还是保持视频原状即可)。但 GAN 训练容易坍塌,且生成的视频分辨率不高,看着比较模糊
  • 3D:如 NeRF,能够生成看起来质量较高的视频,但很难泛化,一般一个模型只能支持一个模特的渲染,泛化性较差

因此,作者选择了更好训练的扩散模型,将 audio-driven talking head 的合成看做一个 audio-driven 的连续时序的去噪过程

如图 1 所示,输入一个语音序列,DiffTalk 可以根据一个人物的一段视频来生成这个人物的新的说话视频

在这里插入图片描述

二、方法

DiffTalk 的整体结构如图 2 所示

在这里插入图片描述

2.1 针对 Talking head 的条件扩散模型

现在潜在扩散模型 LDM 应用很广泛,所以这里作者使用的也是 LDM

作者使用了一对儿训练好的 image encoder E I E_I EI 和 decoder D I D_I DI,在后续训练的时候固定权重不做训练

基于此,输入的人脸图片就会被编码到隐空间 z 0 = E I ( x ) ∈ R h × w × 3 z_0=E_I(x) \in R ^{h \times w \times 3} z0=EI(x)Rh×w×3,h 和 w 是原图大小 H 和 W 经过压缩后的大小,压缩倍数是下采样参数

一般的 LDM 都是一个时间序列的 UNet 去噪网络 M M M,学习的是反向去噪过程:

在这里插入图片描述

但在本文中,给定一个人物的 source identity 和 driven audio,本文的目标是训练一个模型能够生成和语音匹配的说话头视频,且要保留原始 identity 信息

所以,语音信号是一个基础条件来控制如何去噪

2.2 Identity-Preserving Model Generalization

在学习音频到唇部翻译的同时,另一个重要任务是在保留源图像中完整身份信息的同时实现模型的泛化。泛化的身份信息包括面部外观、头部姿态和图像背景。

为此,作者设计了一个参考机制,使模型能够泛化到训练中未见过的新个体

如图 2 所示,选择一个随机的源身份面部图像 xr 作为参考,其中包含外观和背景信息。为了防止训练中的捷径,会限制选择的 xr 与目标图像相距 60 帧以上。然而,由于真实的面部图像与 xr 的姿态完全不同,模型预期在没有任何先验信息的情况下将 xr 的姿态转移到目标面部上。

因此,作者将掩蔽的真实图像 xm 作为另一个参考条件来提供目标头部姿态的指导。xm 的嘴部区域被完全掩盖,以确保网络看不到真实的唇部动作。这样,参考 xr 专注于提供嘴部外观信息,这也降低了训练的难度。

同时,还使用 MLP encoder E L E_L EL 对面部关键点(除过嘴部)进行了编码,也作为条件

所以整个输入条件就变成了:

在这里插入图片描述
整个优化目标就是:

在这里插入图片描述

三、效果

数据:

  • HDTF 数据集,包括 16 小时视频,分辨率为 720P 或 1080P 的,超过 300 个人物
  • 作者随机选择了 100 个视频,抽取了约 100 min 时长的视频作为训练
  • resize 输入数据到 256x256,隐空间编码大小为 64x64x3,如果要训练大分辨率模型,输入是 512x512,隐空间编码大小同样为 64x64x3

在这里插入图片描述

在这里插入图片描述

相关文章:

  • Python3 中常用字符串函数介绍
  • 秒杀系统如何设计
  • Linux文件
  • Python - 深夜数据结构与算法之 AVL 树 红黑树
  • 案例123:基于微信小程序的在线订餐系统的设计与实现
  • 使用scipy处理图片——旋转任意角度
  • K8S--Ingress的作用
  • 结构化数据,非结构化数据,半结构化数据(AI问答)
  • 数据通信基础
  • gcd得最大公约数,辗转相除法理解
  • Dockerfile镜像实战
  • ReactHooks:渲染与useState
  • openssl3.2 - 在VS2019下源码调试openssl.exe
  • 如何通过Burp Suite专业版构建CSRF PoC
  • 【纯CSS特效源码】(二)精美的立体字
  • android 一些 utils
  • Android系统模拟器绘制实现概述
  • Android组件 - 收藏集 - 掘金
  • CSS实用技巧
  • ECMAScript6(0):ES6简明参考手册
  • express + mock 让前后台并行开发
  • Java到底能干嘛?
  • js对象的深浅拷贝
  • Otto开发初探——微服务依赖管理新利器
  • Python爬虫--- 1.3 BS4库的解析器
  • socket.io+express实现聊天室的思考(三)
  • 大整数乘法-表格法
  • 函数式编程与面向对象编程[4]:Scala的类型关联Type Alias
  • 前端代码风格自动化系列(二)之Commitlint
  • 世界编程语言排行榜2008年06月(ActionScript 挺进20强)
  • 树莓派 - 使用须知
  • 数据可视化之 Sankey 桑基图的实现
  • 曜石科技宣布获得千万级天使轮投资,全方面布局电竞产业链 ...
  • #WEB前端(HTML属性)
  • $con= MySQL有关填空题_2015年计算机二级考试《MySQL》提高练习题(10)
  • (android 地图实战开发)3 在地图上显示当前位置和自定义银行位置
  • (NO.00004)iOS实现打砖块游戏(九):游戏中小球与反弹棒的碰撞
  • (TOJ2804)Even? Odd?
  • (翻译)Entity Framework技巧系列之七 - Tip 26 – 28
  • (四)TensorRT | 基于 GPU 端的 Python 推理
  • (转) Face-Resources
  • .htaccess配置重写url引擎
  • .NET Compact Framework 3.5 支持 WCF 的子集
  • .NET Project Open Day(2011.11.13)
  • .NET下ASPX编程的几个小问题
  • .NET学习教程二——.net基础定义+VS常用设置
  • @media screen 针对不同移动设备
  • [ vulhub漏洞复现篇 ] GhostScript 沙箱绕过(任意命令执行)漏洞CVE-2019-6116
  • [16/N]论得趣
  • [20171113]修改表结构删除列相关问题4.txt
  • [C#]扩展方法
  • [C++][基础]1_变量、常量和基本类型
  • [ccc3.0][数字钥匙] UWB配置和使用(二)
  • [EFI]Lenovo ThinkPad X280电脑 Hackintosh 黑苹果引导文件
  • [HackMyVM]靶场 Quick3