当前位置: 首页 > news >正文

阿里通义音频生成大模型 FunAudioLLM 开源

6f634429a6f2d3a7a211da63c63c574e.jpeg

简介

近年来,人工智能(AI)技术的进步极大地改变了人类与机器的互动方式,特别是在语音处理领域。阿里巴巴通义实验室最近开源了一个名为FunAudioLLM的语音大模型项目,旨在促进人类与大型语言模型(LLMs)之间的自然语音交互。FunAudioLLM包含两个核心模型:SenseVoice和CosyVoice,分别负责语音理解和语音生成。

SenseVoice:语音理解模型

SenseVoice是一个功能强大的语音理解模型,支持多种语音处理任务,包括自动语音识别(ASR)、语言识别(LID)、语音情绪识别(SER)和音频事件检测(AED)。其主要特点包括:

  • 多语言支持:SenseVoice支持超过50种语言的语音识别。
  • 低延迟:SenseVoice-Small模型具有极低的推理延迟,比Whisper-small快5倍以上,比Whisper-large快15倍以上,适用于实时语音交互应用。
  • 高精度:SenseVoice-Large模型在高精度语音识别方面表现出色,适用于需要高精度识别的应用。
  • 丰富的语音理解功能:包括情绪识别和音频事件检测,为复杂的语音交互应用提供支持。

CosyVoice:语音生成模型

CosyVoice是一个功能强大的语音生成模型,可以生成自然流畅的语音,并支持多种语言、音色、说话风格和说话人身份的控制。其主要特点包括:

  • 多语言语音生成:支持中文、英文、日语、粤语和韩语等多种语言的语音生成。
  • 零样本学习:可以通过少量参考语音进行语音克隆。
  • 跨语言语音克隆:可以将语音克隆到不同的语言中。
  • 情感语音生成:可以生成情感丰富的语音,如快乐、悲伤、愤怒等。
  • 指令遵循:可以通过指令文本控制语音输出的各个方面,如说话人身份、说话风格和副语言特征。

训练数据

  • SenseVoice:使用了约40万小时的多语言语音数据,并通过开源的音频事件检测(AED)和语音情绪识别(SER)模型生成伪标签,构建了一个包含大量丰富语音识别标签的数据集。
  • CosyVoice:使用了多种语言的语音数据集,并通过专门的工具进行语音检测、信噪比(SNR)估计、说话人分割和分离等操作,以提高数据质量。

实验结果

FunAudioLLM在多个语音理解和生成任务上取得了优异的性能:

  • 多语言语音识别:SenseVoice在大多数测试集上优于Whisper模型,特别是在低资源语言上表现更佳。
  • 语音情绪识别:在7个流行的情绪识别数据集上表现出色,无需微调即可获得高准确率。
  • 音频事件检测:能够识别语音中的音频事件,如音乐、掌声和笑声。
  • 语音生成质量:CosyVoice在内容一致性和说话人相似度方面表现出色,生成的语音与原始语音高度一致。

应用场景

FunAudioLLM的SenseVoice和CosyVoice模型可以应用于多个场景,包括:

  • 语音翻译:将输入语音翻译成目标语言,并生成目标语言的语音。
  • 情感语音聊天:识别输入语音的情绪和音频事件,并生成与情绪相符的语音。
  • 交互式播客:根据实时世界知识和内容生成播客脚本,并使用CosyVoice合成语音。
  • 有声读物:分析文本中的情感和角色,并使用CosyVoice合成具有丰富情感的有声读物。

局限性

尽管FunAudioLLM在多个方面表现出色,但仍存在一些局限性:

  • 低资源语言:SenseVoice在低资源语言上的语音识别准确率较低。
  • 流式识别:SenseVoice不支持流式语音识别。
  • 语言支持:CosyVoice支持的语言数量有限。
  • 情感和风格推断:CosyVoice需要明确的指令才能生成特定情绪和风格的语音。
  • 唱歌:CosyVoice在唱歌方面表现不佳。
  • 端到端训练:FunAudioLLM的模型不是与LLMs端到端训练的,这可能会引入误差传播。

总的来说,FunAudioLLM在语音理解和生成方面展现了强大的能力,为语音交互应用提供了新的可能性。通过开源,阿里巴巴希望能够促进社区的参与和进一步发展。

高性价比GPU算力:https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_0712_shemei


相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • el-popover或el-popconfirm中button不展示问题
  • 从零开始学习c++全套通关系列(第二章)万字总结,建议收藏!
  • 混合贪心算法求解地铁线路调度
  • 结合C++智能指针聊聊观察者模式
  • WPF 框架 Prism IActiveAware接口使用
  • 前端项目本地的node_modules直接上传到服务器上无法直接使用(node-sasa模块报错)
  • boost::regex_replace的使用
  • 海外ASO:iOS与谷歌优化的相同点和区别
  • LabVIEW电子水泵性能测试平台
  • 四个“一体化”——构建数智融合时代下的一站式大数据平台
  • 印尼Facebook直播网络需要达到什么要求?
  • 微信小程序毕业设计-汽车维修项目管理系统项目开发实战(附源码+论文)
  • 图——图的遍历(DFS与BFS)
  • Go 语言 UUID 库 google/uuid 源码解析:UUID version4 的实现
  • Apache功能配置:访问控制、日志分割; 部署AWStats日志分析工具
  • CSS 三角实现
  • css属性的继承、初识值、计算值、当前值、应用值
  • Docker 笔记(1):介绍、镜像、容器及其基本操作
  • IE报vuex requires a Promise polyfill in this browser问题解决
  • Java新版本的开发已正式进入轨道,版本号18.3
  • jquery ajax学习笔记
  • JS创建对象模式及其对象原型链探究(一):Object模式
  • Next.js之基础概念(二)
  • php ci框架整合银盛支付
  • Python 基础起步 (十) 什么叫函数?
  • Yeoman_Bower_Grunt
  • Yii源码解读-服务定位器(Service Locator)
  • 简单基于spring的redis配置(单机和集群模式)
  • 三栏布局总结
  • 适配mpvue平台的的微信小程序日历组件mpvue-calendar
  • 我有几个粽子,和一个故事
  • 一个6年java程序员的工作感悟,写给还在迷茫的你
  • 一个SAP顾问在美国的这些年
  • ​​​​​​​ubuntu16.04 fastreid训练过程
  • ​探讨元宇宙和VR虚拟现实之间的区别​
  • #pragma data_seg 共享数据区(转)
  • #前后端分离# 头条发布系统
  • #我与Java虚拟机的故事#连载06:收获颇多的经典之作
  • (52)只出现一次的数字III
  • (python)数据结构---字典
  • (zz)子曾经曰过:先有司,赦小过,举贤才
  • (函数)颠倒字符串顺序(C语言)
  • (剑指Offer)面试题41:和为s的连续正数序列
  • (利用IDEA+Maven)定制属于自己的jar包
  • (数位dp) 算法竞赛入门到进阶 书本题集
  • (已解决)vue+element-ui实现个人中心,仿照原神
  • (转)Java socket中关闭IO流后,发生什么事?(以关闭输出流为例) .
  • (转)ORM
  • (转)Sql Server 保留几位小数的两种做法
  • (转载)Linux网络编程入门
  • *Algs4-1.5.25随机网格的倍率测试-(未读懂题)
  • *Django中的Ajax 纯js的书写样式1
  • *算法训练(leetcode)第四十七天 | 并查集理论基础、107. 寻找存在的路径
  • .axf 转化 .bin文件 的方法
  • .NetCore实践篇:分布式监控Zipkin持久化之殇