当前位置：首页 > news >正文

比OpenAI的Whisper快50%，最新开源语音模型

news 来源：原创 2024/9/20 15:03:00

生成式AI初创公司aiOla在官网开源了最新语音模型Whisper-Medusa，推理效率比OpenAI开源的Whisper快50%。

aiOla在Whisper的架构之上进行了修改采用了“多头注意力”机制的并行计算方法，允许模型在每个推理步骤中预测多个token，同时不会损失性能和识别准确率。

开源地址：

https://github.com/aiola-lab/whisper-medusa

huggingface：

https://huggingface.co/aiola/whisper-medusa-v1

传统的Transformer架构在生成序列时，是遵循逐个token的顺序预测过程。这意味着在生成新序列时，模型每次只能预测下一个token，然后将这个预测的token加入到序列中，再基于更新后的序列预测下一个token。

这虽然能够确保生成序列的连贯性和上下文相关性，但也有一个非常明显的缺陷——极大限制了模型的推理效率。

此外，由于每次只能处理一个 token ，模型难以捕捉到数据中的长程依赖关系，可能会忽略一些重要的全局信息，从而影响模型的整体性能和准确性。

而Whisper-Medusa使用了10头的多注意力机制，能各自独立地计算注意力分布并行地处理输入，然后将各自的输出通过拼接的方式组合起来，形成一个多维度的向量。

随后向量被送入全连接层进行进一步的处理，以生成最终的token预测。这种并行的数据处理方式不仅加快了模型的推理效率，还增加了模型的表达能力，因为每个注意力头都可以专注于序列的不同子集，捕捉到更丰富的上下文信息。

为了使多头注意力机制在Whisper-Medusa模型中更高效地运行，aiOla采用了弱监督的方法，在训练过程中冻结了原Whisper模型的主要组件，使用该模型生成的音频转录作为伪标签来训练额外的token预测模块。

使得模型即便没有大量手动人工标注数据的情况下，依然能够学习到有效的语音识别模式。

此外在训练过程中，Whisper-Medusa的损失函数需要同时考虑预测的准确性和效率。一方面，模型需要确保预测的token序列与实际转录尽可能一致；

另一方面，通过多头注意力机制的并行预测，模型被鼓励在保证精度的前提下，尽可能地加快预测效率。

aiOla使用了学习率调度、梯度裁剪、正则化等多种方法，确保模型在训练过程中能够稳定收敛，同时避免过拟合性。

业务场景方面， Whisper-Medusa能理解100多种语言，用户可以开发音频转录、识别等多种应用，适用于翻译、金融、旅游、物流、仓储等行业。

aiOla表示，未来会将Whisper-Medusa的多注意力机制扩展至20个头，其推理效率将再次获得大幅度提升。

北京网站建设多少钱？

辽宁网页制作哪家好_网站建设

高端品牌网站建设_汉中网站制作

Apache Doris 的 Incremental Read增量读取，数据合并，数据清理

Java重修笔记第三十三天 StringBuffer类、StringBuild类

jenkins工具配置

谷歌实用Gmail技巧：批量使用多个外贸邮箱技巧

《计算机组成原理》（第3版）第10章控制单元的设计复习笔记

聊聊JS中的WebSocket

2024年8月9号（frp）

Verilog基础：模块端口(port)定义的语法(2001标准）

C++基础编程100题-040 OpenJudge-1.5-01 求平均年龄

大语言模型的简易可扩展增量预训练策略

代码随想录算法训练营day43 | 300.最长递增子序列、674. 最长连续递增序列、718. 最长重复子数组

水库大坝安全监测:筑起水坝安全防线

搜索最新全国工商信息的软件

【Spark集群部署系列一】Spark local模式介绍和搭建以及使用（内含Linux安装Anaconda)

代码随想录算法训练营第十六天

centos安装java运行环境jdk+tomcat

css属性的继承、初识值、计算值、当前值、应用值

el-input获取焦点 input输入框为空时高亮 el-input值非法时

HomeBrew常规使用教程

JavaScript 一些 DOM 的知识点

js继承的实现方法

js学习笔记

JS专题之继承

OpenStack安装流程（juno版）- 添加网络服务（neutron）- controller节点

Spring Cloud(3) - 服务治理: Spring Cloud Eureka

汉诺塔算法

简析gRPC client 连接管理

理解IaaS, PaaS, SaaS等云模型 (Cloud Models)

聊聊springcloud的EurekaClientAutoConfiguration

日剧·日综资源集合（建议收藏）

如何设计一个微型分布式架构？

如何使用Mybatis第三方插件--PageHelper实现分页操作

一道闭包题引发的思考

- 转 Ext2.0 form使用实例

Java性能优化之JVM GC（垃圾回收机制）

测评：对于写作的人来说，Markdown是你最好的朋友 ...

#Datawhale AI夏令营第4期#AIGC方向文生图 Task2

#window11设置系统变量#

%3cscript放入php,跟bWAPP学WEB安全(PHP代码)--XSS跨站脚本攻击

( 10 )MySQL中的外键

（Redis使用系列） Springboot 在redis中使用BloomFilter布隆过滤器机制六

（安全基本功）磁盘MBR，分区表，活动分区，引导扇区。。。详解与区别

（二）pulsar安装在独立的docker中，python测试

（附源码）spring boot校园拼车微信小程序毕业设计 091617

（附源码）ssm基于jsp的在线点餐系统毕业设计 111016

（附源码）ssm智慧社区管理系统毕业设计 101635

(附源码)计算机毕业设计ssm-Java网名推荐系统

（机器学习-深度学习快速入门）第一章第一节：Python环境和数据分析

（论文阅读26/100）Weakly-supervised learning with convolutional neural networks

（三）centos7案例实战—vmware虚拟机硬盘挂载与卸载

（未解决）macOS matplotlib 中文是方框

(译) 函数式 JS #1：简介

（转）全文检索技术学习(三)——Lucene支持中文分词

(转)用.Net的File控件上传文件的解决方案

.mp4格式的视频为何不能通过video标签在chrome浏览器中播放？

相关文章：