当前位置: 首页 > news >正文

【深度学习】CosyVoice,论文

CosyVoice_v1.pdf

文章目录

    • CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens
    • 摘要
    • 1 引言
    • 2 CosyVoice: 使用监督语义标记的可扩展TTS模型
      • 2.1 用于语音的监督语义标记
      • 2.2 用于TTS的大型语言模型
      • 2.3 最优传输条件流匹配
        • 2.3.1 零样本上下文学习
      • 2.4 富生成与指令
    • 3 数据集
      • 3.1 小规模单语言数据集
      • 3.2 大规模多语言数据集
    • 4 实验设置
      • 4.1 S3标记器设置
      • 4.2 CosyVoice模型设置
    • 5 实验结果
      • 5.1 对S3标记器的评估
      • 5.2 与基线的比较
      • 5.3 对CosyVoice生成质量的评估
      • 5.4 CosyVoice的情感可控性
      • 5.5 CosyVoice作为数据生成器
    • 6 结论

https://github.com/FunAudioLLM/CosyVoice?tab=readme-ov-file

CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens

Zhihao Du, Qian Chen, Shiliang Zhang, Kai Hu, Heng Lu, Yexin Yang, Hangrui Hu, Siqi Zheng, Yue Gu, Ziyang Ma, Zhijie Yan
Speech Lab, Alibaba Group, China
{neo.dzh,sly.zsl,h.lu}@alibaba-inc.com

摘要

近年来,基于大型语言模型(Large Language Model,LLM)的文本到语音(Text-to-Speech,TTS)技术由于其高度自然性和零样本能力,逐渐成为主流。在这一范式中,语音信号被离散化为标记序列,这些标记由LLM以文本为提示进行建模,并通过基于标记的声码器重建为波形。显然,语音标记在LLM基础的TTS模型中起着至关重要的作用。目前的语音标记是通过无监督方式学习的,缺乏明确的语义信息和与文本的对齐。在本文中,我们提出使用监

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • jetbrain插件市场无法下载插件/idea插件install无效
  • Unity后处理(Post-processing)
  • JAVA的String类的contains方法,Indexof方法不使用KMP算法
  • 顺丰+美团测开面试经验
  • 2024华为OD机试真题-最小矩阵宽度Python-C卷D卷-200分
  • 【MySQL】表的CRUD{insert 替换 查询 运算符 语句执行顺序 排序 limit 分页 truncate截断表 去重 mysql日志 聚合函数}
  • 集合的并发修改异常 31
  • 编程小白如何成为大神?大学新生的最佳入门攻略
  • RK3568笔记四十九:W25Q64驱动开发(硬件SPI1)
  • “八股文”面试题:是招聘程序员的金科玉律?
  • aaaaaaaaaaaaa
  • Day14-Servlet后端验证码的实现
  • WildCard虚拟卡绑定openAI付款方式
  • 从信息论的角度看微博推荐算法
  • 【网络安全】大小写绕过速率限制
  • 【108天】Java——《Head First Java》笔记(第1-4章)
  • ➹使用webpack配置多页面应用(MPA)
  • es6--symbol
  • Eureka 2.0 开源流产,真的对你影响很大吗?
  • Python代码面试必读 - Data Structures and Algorithms in Python
  • Spark学习笔记之相关记录
  • SQLServer之索引简介
  • STAR法则
  • supervisor 永不挂掉的进程 安装以及使用
  • Vue.js-Day01
  • 前端自动化解决方案
  • 如何抓住下一波零售风口?看RPA玩转零售自动化
  • 三分钟教你同步 Visual Studio Code 设置
  • 实习面试笔记
  • 使用Tinker来调试Laravel应用程序的数据以及使用Tinker一些总结
  • 吴恩达Deep Learning课程练习题参考答案——R语言版
  • FaaS 的简单实践
  • NLPIR智能语义技术让大数据挖掘更简单
  • 如何用纯 CSS 创作一个菱形 loader 动画
  • ​一些不规范的GTID使用场景
  • # 执行时间 统计mysql_一文说尽 MySQL 优化原理
  • (1)bark-ml
  • (1)Nginx简介和安装教程
  • (16)UiBot:智能化软件机器人(以头歌抓取课程数据为例)
  • (Arcgis)Python编程批量将HDF5文件转换为TIFF格式并应用地理转换和投影信息
  • (Java实习生)每日10道面试题打卡——JavaWeb篇
  • (python)数据结构---字典
  • (大众金融)SQL server面试题(1)-总销售量最少的3个型号的车及其总销售量
  • (多级缓存)多级缓存
  • (二)原生js案例之数码时钟计时
  • (附源码)计算机毕业设计ssm本地美食推荐平台
  • (贪心 + 双指针) LeetCode 455. 分发饼干
  • (万字长文)Spring的核心知识尽揽其中
  • (一)UDP基本编程步骤
  • (转)C#调用WebService 基础
  • .NET Core WebAPI中使用swagger版本控制,添加注释
  • .Net通用分页类(存储过程分页版,可以选择页码的显示样式,且有中英选择)
  • .w文件怎么转成html文件,使用pandoc进行Word与Markdown文件转化
  • /使用匿名内部类来复写Handler当中的handlerMessage()方法
  • @for /l %i in (1,1,10) do md %i 批处理自动建立目录