当前位置: 首页 > news >正文

复旦发布开源版本的EMO,只需输入一段音频和一张照片就可以让人物开始说话。

之前和大家介绍过阿里的EMO,用户只需要提供一张照片和一段任意音频文件,EMO即可生成会说话唱歌的AI视频。最长时间可达1分30秒左右。感兴趣的小伙伴可以点击下面链接阅读。

近日,复旦发布了一个开源版本的 EMO。

通过输入音频让面部照片开始说话,并且有对于的表情。看起来效果很自然。

采用端到端的扩散范式,引入了分层的音频驱动视觉合成模块,以提高音频输入与视觉输出之间的对齐精度,包括唇部、表情和姿势的运动。

分层音频驱动的视觉合成模块提供了对表情和姿势多样性的自适应控制,更有效地实现了针对不同身份的个性化定制。

相关链接

论文地址:https://arxiv.org/pdf/2406.08801

代码地址:https://github.com/fudan-generative-vision/hallo

试用链接:https://huggingface.co/fudan-generative-ai/hallo

论文阅读

Hallo:用于肖像图像动画的分层音频驱动视觉合成

摘要

由语音音频输入驱动的肖像图像动画领域在生成逼真的动态肖像方面取得了重大进展。这项研究深入研究了在基于扩散的方法框架内同步面部运动和创建视觉吸引力、时间一致的动画的复杂性。我们的创新方法摆脱了依赖参数模型进行中间面部表征的传统范式,采用了端到端扩散范式,并引入了分层音频驱动的视觉合成模块,以提高音频输入和视觉输出之间的对齐精度,包括嘴唇、表情和姿势运动。我们提出的网络架构无缝集成了基于扩散的生成模型、基于 UNet 的降噪器、时间对齐技术和参考网络。所提出的分层音频驱动的视觉合成提供了对表情和姿势多样性的自适应控制,从而能够针对不同身份进行更有效的个性化。通过结合定性和定量分析的综合评估,我们的方法在图像和视频质量、嘴唇同步精度和运动多样性方面表现出明显的增强。

方法

方法概述。具体来说,我们集成了一个参考图像 包含具有相应音频输入的肖像以驱动肖像动画。可选的视觉合成重量可以用来平衡嘴唇,表情和姿势的重量。ReferenceNet编码全局视觉纹理信息一致和可控的角色动画。人脸和音频编码器生成高保真肖像身份特征,并将音频编码为运动信息。层次化视听合成模块建立关系在视听之间。

可视化的层次化听觉驱动视觉合成与对比分析, 对视听交叉注意在原全法和我们提出的分层法之间进行了比较。

效果

与现有方法在HDTF数据集上的定性比较。

在CelebV数据集上与现有方法的定性比较。

在不同的肖像风格下,提出的方法的视频生成结果。

给出不同音频风格的视频生成结果。

结论

本文介绍了一种使用端到端扩散模型进行肖像图像动画的新方法,解决了音频驱动面部动态同步和具有时间一致性的高质量动画生成方面的挑战。所提出的分层音频驱动视觉合成模块通过交叉注意机制和自适应加权增强了视听对齐。通过集成基于扩散的生成建模、UNet 去噪、时间对齐和 ReferenceNet,该方法提高了动画质量和真实感。实验评估证明了卓越的图像和视频质量、增强的唇部同步和增加的运动多样性,并通过卓越的 FID 和 FVD 指标进行了验证。该方法允许灵活控制表达和姿势多样性,以适应不同的视觉身份。

相关文章:

  • 50etf期权交易规则杠杆怎么计算?
  • 16.RedHat认证-Ansible自动化运维(中)
  • 苹果Mac电脑遭恶意软件攻击 Mac第三方恶意软件删除不了
  • rtthread stm32h743的使用(九)RT_WEAK报错
  • 手写操作系统
  • pycharm git配置
  • 表单中的常用元素
  • 《跟我一起学“网络安全”》——等保风评加固应急响应
  • ResNet——Deep Residual Learning for Image Recognition(论文阅读)
  • 20个超实用的VS Code扩展(2024年版)
  • 羊城杯 2020 a_piece_of_java
  • QToolButton 和 QPushButton的区别和联系
  • java 富文本(含图片)导出为docx文件,以及docx文件的合并
  • 【免费Web系列】大家好 ,今天是Web课程的第二二天点赞收藏关注,持续更新作品 !
  • Suno AI如何解决中文多音字的问题? 耗费500积分,亲测有效 ,V4版本会不会直接支持呢?
  • AngularJS指令开发(1)——参数详解
  • Bootstrap JS插件Alert源码分析
  • Consul Config 使用Git做版本控制的实现
  • Django 博客开发教程 8 - 博客文章详情页
  • Java IO学习笔记一
  • JavaScript设计模式系列一:工厂模式
  • JS数组方法汇总
  • js算法-归并排序(merge_sort)
  • leetcode386. Lexicographical Numbers
  • Linux gpio口使用方法
  • Python连接Oracle
  • QQ浏览器x5内核的兼容性问题
  • Web设计流程优化:网页效果图设计新思路
  • 表单中readonly的input等标签,禁止光标进入(focus)的几种方式
  • 第三十一到第三十三天:我是精明的小卖家(一)
  • 精益 React 学习指南 (Lean React)- 1.5 React 与 DOM
  • 猫头鹰的深夜翻译:JDK9 NotNullOrElse方法
  • 那些年我们用过的显示性能指标
  • 微信开放平台全网发布【失败】的几点排查方法
  • 线性表及其算法(java实现)
  • 移动端 h5开发相关内容总结(三)
  • 翻译 | The Principles of OOD 面向对象设计原则
  • ​Linux Ubuntu环境下使用docker构建spark运行环境(超级详细)
  • # 透过事物看本质的能力怎么培养?
  • #php的pecl工具#
  • #前后端分离# 头条发布系统
  • ()、[]、{}、(())、[[]]命令替换
  • (2024最新)CentOS 7上在线安装MySQL 5.7|喂饭级教程
  • (CPU/GPU)粒子继承贴图颜色发射
  • (delphi11最新学习资料) Object Pascal 学习笔记---第2章第五节(日期和时间)
  • (floyd+补集) poj 3275
  • (PADS学习)第二章:原理图绘制 第一部分
  • (vue)el-tabs选中最后一项后更新数据后无法展开
  • (补)B+树一些思想
  • (动态规划)5. 最长回文子串 java解决
  • (免费领源码)python#django#mysql校园校园宿舍管理系统84831-计算机毕业设计项目选题推荐
  • (十七)Flask之大型项目目录结构示例【二扣蓝图】
  • (算法)Game
  • (微服务实战)预付卡平台支付交易系统卡充值业务流程设计
  • (转)Windows2003安全设置/维护