当前位置: 首页 > news >正文

字节跳动发Seed-TTS语音合成模型,可模仿任意人的声音,效果逼真

前期我们介绍过很多语音合成的模型,比如ChatTTS,微软语音合成大模型等,随着大模型的不断进步,其合成的声音基本跟真人没有多大的区别。本期介绍的是字节跳动自家发布的语音合成模型Seed-TTS。

Seed-TTS 推理包含四个功能模块:

  • (1) 语音标记器从参考语音中学习标记信息。
  • (2)自回归语言模型根据条件文本和语音生成语音标记。
  • (3) 扩散变换器模型以从粗到细的方式生成语音标记的连续语音表示。
  • (4) 声学声码器从扩散输出中生成更高质量的语音。

系统模型框架

Seed-TTS是一个大规模自回归文本转语音 (TTS) 模型,能够生成与人类语音几乎没有区别的语音。 Seed-TTS 作为语音生成的基础模型,在语音上下文学习方面表现十分出色,在说话者相似度和自然度方面的表现在客观和主观评估方面都与真实人类语音相匹配。 Seed-TTS 对各种语音属性(例如情感)提供卓越的可控性,并且能够为说话者生成高度表现力和多样化的语音。Seed-TTS 可以根据说话者的声音,模仿成另外一个语言的语音,且情感,音色等跟原始声音没有太大区别。

中英文转换

此外,Seed-TTS 使用了一种用于语音分解的自蒸馏方法,以及一种强化学习方法来增强模型的鲁棒性、说话人的相似性和可控性。Seed-TTS 模型的非自回归 (NAR) 变体,名为 Seed-TTSDiT,它采用完全基于扩散模型的架构。与之前基于 NAR 的 TTS 系统不同,Seed-TTSDiT 不依赖于预先估计的音素持续时间,并通过端到端处理执行语音生成。该变体在客观和主观评估中都达到了与基于语言模型的变体相当的性能,并展示了其在语音编辑中的有效性。且Seed-TTS 支持不同的情感输入,比如:高兴,生气,恐惧等情感。

不同情感的声音

且模型支持输入原始音频文件,并根据要求,输出不同情感的语音。

情感更换

不仅如此,模型支持修改语音文本的内容,并合成另外修改完成的语音。

修改语音内容

Seed-TTS还支持语音语速的调节,不仅如此,还支持多人说话的方式,这样一个长篇语音小说就可以完成了。当然模型也支持输入视频,把视频中的音频转换成另外一种语音。

https://bytedancespeech.github.io/seedtts_tech_report/
更多 transformer 教程,参考头条:人工智能更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:启示AI科技

 动画详解transformer  在线教程

 

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • (回溯) LeetCode 78. 子集
  • 网络安全自学笔记
  • 自定义linux某些常见配置
  • mysql在4核16G 500G的服务器上单表数据量多大合适
  • C# 使用NHibernate连接MySQL实现数据的增删改查
  • 快速排序原理与实现
  • SuccBI+低代码文档中心 — 可视化分析(仪表板)(上)
  • WordPress多用途电子商务博客新闻主题betheme 21.5.6版本
  • React 知识点(二)
  • oracle 判断某个字段包含某几个字符like或INSTR
  • 基于LQR算法的机器人轨迹跟踪控制详解
  • MYSQL 5.7.36 等保 建设记录
  • RGB和HSL是两种不同的颜色表示模型,每种模型都有其特定的用途和含义。
  • InfluxDB Studio 下载,时序数据库Windows图形界面操作
  • C++:智能指针了解
  • 002-读书笔记-JavaScript高级程序设计 在HTML中使用JavaScript
  • Angular 2 DI - IoC DI - 1
  • Django 博客开发教程 16 - 统计文章阅读量
  • HTML-表单
  • iOS动画编程-View动画[ 1 ] 基础View动画
  • Laravel 实践之路: 数据库迁移与数据填充
  • linux安装openssl、swoole等扩展的具体步骤
  • Making An Indicator With Pure CSS
  • Python 使用 Tornado 框架实现 WebHook 自动部署 Git 项目
  • spark本地环境的搭建到运行第一个spark程序
  • 阿里云容器服务区块链解决方案全新升级 支持Hyperledger Fabric v1.1
  • 基于HAProxy的高性能缓存服务器nuster
  • 快速构建spring-cloud+sleuth+rabbit+ zipkin+es+kibana+grafana日志跟踪平台
  • 温故知新之javascript面向对象
  • Spring Batch JSON 支持
  • 没有任何编程基础可以直接学习python语言吗?学会后能够做什么? ...
  • ​LeetCode解法汇总2808. 使循环数组所有元素相等的最少秒数
  • ​力扣解法汇总1802. 有界数组中指定下标处的最大值
  • #QT(一种朴素的计算器实现方法)
  • (4) PIVOT 和 UPIVOT 的使用
  • (ibm)Java 语言的 XPath API
  • (rabbitmq的高级特性)消息可靠性
  • (附源码)spring boot智能服药提醒app 毕业设计 102151
  • (附源码)springboot码头作业管理系统 毕业设计 341654
  • (附源码)计算机毕业设计ssm本地美食推荐平台
  • (含react-draggable库以及相关BUG如何解决)固定在左上方某盒子内(如按钮)添加可拖动功能,使用react hook语法实现
  • (论文阅读笔记)Network planning with deep reinforcement learning
  • (十)DDRC架构组成、效率Efficiency及功能实现
  • (数据大屏)(Hadoop)基于SSM框架的学院校友管理系统的设计与实现+文档
  • (贪心) LeetCode 45. 跳跃游戏 II
  • (一)插入排序
  • (原創) X61用戶,小心你的上蓋!! (NB) (ThinkPad) (X61)
  • (转)http协议
  • ***利用Ms05002溢出找“肉鸡
  • .【机器学习】隐马尔可夫模型(Hidden Markov Model,HMM)
  • .bat文件调用java类的main方法
  • .net core Swagger 过滤部分Api
  • .NET Core6.0 MVC+layui+SqlSugar 简单增删改查
  • .net 写了一个支持重试、熔断和超时策略的 HttpClient 实例池
  • .sh文件怎么运行_创建优化的Go镜像文件以及踩过的坑