【深度学习】CosyVoice,论文
CosyVoice_v1.pdf
文章目录
- CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens
- 摘要
- 1 引言
- 2 CosyVoice: 使用监督语义标记的可扩展TTS模型
- 2.1 用于语音的监督语义标记
- 2.2 用于TTS的大型语言模型
- 2.3 最优传输条件流匹配
- 2.3.1 零样本上下文学习
- 2.4 富生成与指令
- 3 数据集
- 3.1 小规模单语言数据集
- 3.2 大规模多语言数据集
- 4 实验设置
- 4.1 S3标记器设置
- 4.2 CosyVoice模型设置
- 5 实验结果
- 5.1 对S3标记器的评估
- 5.2 与基线的比较
- 5.3 对CosyVoice生成质量的评估
- 5.4 CosyVoice的情感可控性
- 5.5 CosyVoice作为数据生成器
- 6 结论
https://github.com/FunAudioLLM/CosyVoice?tab=readme-ov-file
CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens
Zhihao Du, Qian Chen, Shiliang Zhang, Kai Hu, Heng Lu, Yexin Yang, Hangrui Hu, Siqi Zheng, Yue Gu, Ziyang Ma, Zhijie Yan
Speech Lab, Alibaba Group, China
{neo.dzh,sly.zsl,h.lu}@alibaba-inc.com
摘要
近年来,基于大型语言模型(Large Language Model,LLM)的文本到语音(Text-to-Speech,TTS)技术由于其高度自然性和零样本能力,逐渐成为主流。在这一范式中,语音信号被离散化为标记序列,这些标记由LLM以文本为提示进行建模,并通过基于标记的声码器重建为波形。显然,语音标记在LLM基础的TTS模型中起着至关重要的作用。目前的语音标记是通过无监督方式学习的,缺乏明确的语义信息和与文本的对齐。在本文中,我们提出使用监