当前位置: 首页 > news >正文

ECCV2024|商汤发布3D面部动画系统UniTalker:通过统一模型扩展音频驱动的 3D 面部动画

商汤研究院最新发布了一个先进的3D面部动画系统UniTalker,可以从不同的音频领域生成逼真的面部动作,包括各种语言的清晰和嘈杂的声音、文本到语音生成的音频,甚至伴有背景音乐的嘈杂歌曲。

UniTalker 可以输出多个注释。对于具有新注释的数据集,可以简单地将新的头插入 UniTalker 并使用现有数据集或仅使用新数据集进行训练,从而避免重新拓扑。

效果

相关链接

代码链接:https://github.com/X-niper/UniTalker

论文链接:https://arxiv.org/pdf/2408.00762

项目地址:https://x-niper.github.io/projects/UniTalker/

论文阅读

UniTalker:通过统一模型扩展音频驱动的 3D 面部动画

摘要

音频驱动的 3D 面部动画旨在将输入音频映射到逼真的面部运动。尽管取得了重大进展,但由于 3D 注释不一致而产生了限制,将以前的模型限制在特定注释上进行训练,从而限制了训练规模。

在这项工作中,我们提出了 UniTalker,这是一个统一的模型,具有多头架构,旨在有效利用具有不同注释的数据集。为了增强训练稳定性并确保多头输出之间的一致性,我们采用了三种训练策略,即 PCA、模型预热和枢轴身份嵌入。为了扩大训练规模和多样性,我们组装了 A2F-Bench,包括五个公开可用的数据集和三个新整理的数据集。这些数据集包含广泛的音频领域,涵盖多语言语音和歌曲,从而将训练数据从常用的数据集(通常不到 1 小时)扩展到 18.5 小时。使用单个经过训练的 UniTalker 模型,我们实现了唇顶点误差的大幅降低,BIWI 数据集降低了 9.2%,Vocaset 降低了 13.7%。

此外,经过预训练的 UniTalker 有望成为音频驱动面部动画任务的基础模型。在可见数据集上对经过预训练的 UniTalker 进行微调可进一步提高每个数据集上的性能,A2F-Bench 上的平均误差减少了 6.3%。此外,在仅使用一半数据的未见数据集上对 UniTalker 进行微调,其性能超越了之前在完整数据集上训练的最先进的模型。

方法

左图:UniTalker 旨在以统一的方式从不同的数据集中学习。它以多语言、多种声音类型的音频作为输入,并同时输出各种 3D 面部注释 约定。

右图:在每个数据集上对 UniTalker 进行微调,始终显示比在数据集上训练模型更低的唇顶点误差 (LVE),导致平均 LVE 下降 6.3%。

UniTalker 架构

架构比较。 (a)Vanilla 多头音频到人脸模型。

(b)UniTalker 采用 PCA 来平衡数据集中的注释维度,使用解码器预热来稳定训练,并开发枢轴身份嵌入以减轻数据集偏差。

(c)UniTalker-[D0-D7] 解码器的放大视图。UniTalker-[D0-D7] 有 6 个解码器头。

实验

BIWI-Test-A 和 VOCA-Test 的定量结果。最佳值以粗体显示。

(a) 每个训练集内的面部运动标准偏差。D1(Vocaset)的上部面部几乎没有运动变化,接近静态。

(b) 相邻帧运动变化的时间统计(平均值和标准偏差)以及序列内每帧预测到 GT 欧几里得距离的平均值。

结论

我们提出了 UniTalker,它有效地利用了具有不一致注释格式的现有数据集。模型精度受益于 A2F-Bench 的规模和多样性的增加。实验表明,预训练的 UniTalker 有潜力作为更多音频到人脸任务的基础模型,尤其是在数据稀缺的情况下。

局限性和未来工作。UniTalker 在大多数数据集上比相应的单个模型显示出更好的精度。然而,要在每个数据集上实现一致的改进需要针对数据集进行微调。增强模型容量以缓解不同数据集之间的性能权衡的潜力仍然是一个悬而未决的问题。同时,预训练的 UniTalker 有望成为音频驱动面部动画任务的基础模型。尽管如此,UniTalker 使用的数据规模(即 18.53 小时)仍然比用于训练音频编码器的数据规模(即 56k 小时)小得多。探索利用数据质量欠佳的大规模数据集(如 BEAT 和 Talkshow)代表着一个有前途的未来方向。将 UniTalker 应用于 2D 面部动画以增强大头部姿势下的一致性也是一项值得追求的追求。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • Verilog刷题笔记55
  • 第4章 汇编语言和汇编软件
  • MySQL索引的性能优化
  • ES6-ES13学习笔记
  • 【机器学习】逻辑回归原理(极大似然估计,逻辑函数Sigmod函数模型详解!!!)
  • 【docker】使用docker-compose的时候如何更新镜像版本
  • Notepad--文本编辑工具 for Mac教程【苹果电脑-简单轻松上手-免费Mac软件推荐】
  • 又一实锤 美元丧钟敲响
  • hutool excel 导出,格式错误,打开乱码
  • Python实现人脸轮廓提取
  • Aria2安装和使用-Mac版
  • Swift 数据类型之可选值类型(Optional)详解
  • Sass实现网页背景主题切换
  • python3爬虫(未完结)
  • 产业园区智慧公寓管理系统
  • 【剑指offer】让抽象问题具体化
  • 2017年终总结、随想
  • Vue.js-Day01
  • 阿里云应用高可用服务公测发布
  • 不发不行!Netty集成文字图片聊天室外加TCP/IP软硬件通信
  • 高程读书笔记 第六章 面向对象程序设计
  • 关于for循环的简单归纳
  • 七牛云假注销小指南
  • 前端每日实战 2018 年 7 月份项目汇总(共 29 个项目)
  • 强力优化Rancher k8s中国区的使用体验
  • 我有几个粽子,和一个故事
  • 策略 : 一文教你成为人工智能(AI)领域专家
  • 说说我为什么看好Spring Cloud Alibaba
  • 通过调用文摘列表API获取文摘
  • ​ 全球云科技基础设施:亚马逊云科技的海外服务器网络如何演进
  • (2)关于RabbitMq 的 Topic Exchange 主题交换机
  • (vue)el-tabs选中最后一项后更新数据后无法展开
  • (ZT)一个美国文科博士的YardLife
  • (附源码)spring boot车辆管理系统 毕业设计 031034
  • (附源码)springboot太原学院贫困生申请管理系统 毕业设计 101517
  • (免费领源码)Java#ssm#MySQL 创意商城03663-计算机毕业设计项目选题推荐
  • (十六)视图变换 正交投影 透视投影
  • (一)认识微服务
  • (一)项目实践-利用Appdesigner制作目标跟踪仿真软件
  • (源码版)2024美国大学生数学建模E题财产保险的可持续模型详解思路+具体代码季节性时序预测SARIMA天气预测建模
  • (源码分析)springsecurity认证授权
  • (转)EOS中账户、钱包和密钥的关系
  • (转载)从 Java 代码到 Java 堆
  • .NET Core实战项目之CMS 第一章 入门篇-开篇及总体规划
  • .NET MVC第五章、模型绑定获取表单数据
  • .net wcf memory gates checking failed
  • .net 反编译_.net反编译的相关问题
  • .Net 中的反射(动态创建类型实例) - Part.4(转自http://www.tracefact.net/CLR-and-Framework/Reflection-Part4.aspx)...
  • .NetCore发布到IIS
  • .NET企业级应用架构设计系列之结尾篇
  • //解决validator验证插件多个name相同只验证第一的问题
  • @synthesize和@dynamic分别有什么作用?
  • @Transactional 竟也能解决分布式事务?
  • [ IO.File ] FileSystemWatcher
  • [ 网络通信基础 ]——网络的传输介质(双绞线,光纤,标准,线序)