当前位置：首页 > news >正文

刚刚拿下「中国AI最高奖」的语音技术，能给我们带来什么？

news 来源：原创 2024/5/16 17:50:45

什么样的语音项目，能拿“中国AI最高奖”？

不久前，中国唯一国家级的人工智能科技奖——吴文俊人工智能科学技术奖，公布了最新一届的获奖名单。

而在人工智能自然科学奖的5个一等奖中，唯一一项语音相关的奖项，花落上海交通大学。这也是语音领域的研究成果第一次获得吴文俊人工智能科学技术奖的一等奖。

获奖人分别为：

钱彦旻，上海交通大学计算机科学与工程系副教授、思必驰上海交通大学智能人机交互联合实验室副主任；
俞凯，上交大计算机系教授、思必驰首席科学家；
谭天，上交大博士毕业、思必驰语音技术研发工程师；
刘媛，上交大硕士毕业。

不过稍微熟悉产业的盆友也知道，这个团队除了“上海交大”的底色，还都有独角兽思必驰的影子。

团队获奖所凭借的技术成果，叫“鲁棒语音信号模式分析与识别的深度结构化建模理论与方法”。

这到底是一项怎样的新技术？

斩获”AI最高奖”的语音技术

在语音分析与识别中，传统的用深度学习建模方式，主要是堆叠神经网络层数和神经元单元，或通过增加数据来提高性能。

但这种方式的一个缺点，就是往往不具备可解释性。

而钱彦旻团队的工作，便是将结构化的方法引入到模型设计和优化中，通过引入结构赋予神经网络更强的物理含义和参数解释，并利用人脑的听觉相关机理来指导这种结构的设计。这就会让其更具备可解释性，使得语音模型的优化目标更高效，最终提升语音信号分析与识别系统在各个场景下的鲁棒性。

进一步而言，主要分为三个主攻方向，分别是从信道、环境和人来做的差异化工作。

在“信道”和“环境”方面，二者的研究往往是相伴相随，钱彦旻团队的研究集中在了对它们的表示与感知。

例如2016年和2018年发表在顶刊IEEE TASLP上的 Very Deep Convolutional Neural Networks for Noise Robust Speech Recognition 和Adaptive Very Deep Convolutional Residual Network for Noise Robust Speech Recognition，便让语音识别在噪声环境下的也具有较好的鲁棒性。

钱彦旻团队首先在2016年的研究证明了极深卷积神经网络（VDCNN），具有优越的自主抗噪鲁棒性。

然后在2018年，在以上这项研究基础上，提出了一种更先进的模型，称为极深卷积残差网络 （VDCRN），并通过感知自适应技术，使得模型可以对环境变化做自动的调整。

简单来说，这个模型结合了批处理归一化和残差学习，比刚才提到的VDCNN具有更强的鲁棒性。

而这项研究的重点集中在了因子感知训练（FAT）和聚类自适应训练（CAT）上。

对于FAT来说，团队探索了一个统一的框架，如上图所示。

至于CAT方面，则是提出了两种方案来构建规范模型，如下图所示。

最后，为了在嘈杂场景下获得最佳的系统性能，还提出了一个完整的多系统融合框架。

实验结果表明，新的VDCRN具有更强的鲁棒性，对该模型的自适应能进一步显著降低单词错误率。

特别是在Aurora4上，仅通过改进声学建模，就达到了5.67%的新里程碑。

人，在语音识别过程中，也是一个非常重要的因素之一。

换言之，如何将一段语音中的人和人之间的区别，通过参数化的表示，在数学层面上展现出来。

在这方面，钱彦旻团队也做了相应的工作，早在2015年便发表了题为Deep feature for text-dependent speaker verification的研究。

值得注意的是，这项研究在2019年获得了语音领域权威期刊Speech Communication的最优论文奖。

这项研究为了让深度学习模型更好地融入到“说话人”的验证过程中，提出了从深度学习模型中提取更有说话人鉴别能力的新方法。

与传统的短时谱特征（例如MFCC、PLP）不同的是，钱彦旻团队采用了各种深度模型隐含层的输出作为深度特征，进行文本相关“说话人”验证。

具体而言，一共包括四种类型的深度模型：

深度受限玻尔兹曼机（deep RBM）
语音判别深度神经网络（speech-discriminant DNN）
说话人判别深度神经网络（speaker-discriminant DNN）
多任务联合学习深度神经网络（multi-task joint-learned DNN）

一旦深度特征被提取出来，它们可以在GMM-UBM框架或示性向量（如，i-vector）框架内使用。

与此同时，团队还提出了“联合线性判别分析”和“概率线性判别分析”，作为基于示性向量深度特征的有效后端分类器。

实验结果表明，无论是直接应用于GMM-UBM系统，还是作为示性向量使用，基于所提出的结构化深度模型的新表示特征方法与传统基线相比，都能获得显著的性能提升。

当然，好的技术不能仅仅停留在实验室中的“结果数据”，更应该有落地，应当服务于人。

从懵懂入局，到深耕语音十余载

钱彦旻，便是让团队走向中国AI语音技术巅峰的领军人物之一。

钱彦旻是上海交通大学计算机科学与工程系副教授、博士生导师，同时也是思必驰上海交通大学智能人机交互联合实验室的副主任。

博士毕业于清华大学，之后曾在英国剑桥大学工程系MIL机器智能实验室深造，做博士后研究，回国后在上海交通大学计算机系任副教授。目前在语音技术领域已经发表学术论文150余篇，并多次获得最优论文奖励。

与此同时，他还是全球最流行的语音识别开源工具包Kaldi 13位创始人之一。

但在量子位与钱彦旻的交流过程中却发现，钱彦旻在语音技术上的造诣与成就，并非一开始的兴趣使然。

而关于钱彦旻与语音技术的故事，要从2007年开始讲起。

那时的他刚刚开启博士生涯，至于专业方向的选择，则是由其在清华的导师刘加教授推荐。

也就是在这时，便与语音技术有了初次的邂逅。

而刚入局的钱彦旻，用他自己的话说便是“瞎折腾”，博士在读2年后，才慢慢地做到了独立探索和深入研究。

也形成了适合自己的一套研究方法，可以对于一个语音技术的“点”，由浅入深，做比较深入、全面的研究。

在博士毕业之后，也就是在上海交通大学和英国剑桥大学期间，对于钱彦旻个人来讲，是在语音技术多个领域中快速深入推进研究的一个阶段。从博士期间专攻语音识别一个方向，扩展到了语音分类、抗噪、感知、声纹、多模态等语音技术的多个方面。

也就是在与语音技术一点一滴的接触过程当中，钱彦旻从一个“懵懂”的状态，逐步转变到了“热爱”。

于是，从2007年算起，这一入局，便深耕了13年之久。

在此过程中，除了刘教授之外，钱彦旻还提到了另外一个对他意义非凡的人，他便是Kaldi之父——Daniel Povey。

Daniel在钱彦旻读博士期间给予了非常大的帮助，细到会帮钱彦旻看到代码，指导他“将某个参数从1.0调到2.0试试”这种程度。

甚至Daniel邀请钱彦旻出国一起参加Kaldi的开发，都是自掏腰包，极其慷慨的“包吃住”，为的就是共同专研探讨语音技术。

用钱彦旻的话来说：

他做人做事风格，人格的魅力，对科学的专注态度，也帮助我更加明确了研究后期的一些方向，坚定了自己的理想，也给予了我做这个方向的勇气和决心。

……

而作为此次获得“AI最高奖”的语音团队，站在2021年的开始，钱彦旻也对语音技术将有的一个趋势做了预测。

他认为深度学习在语音技术上的可解释学习还是不够，在这个过程当中具体都做了哪些事情还是不够清晰。

而这也是钱彦旻团队能够获得此次奖项的主要原因，他们的研究让模型设计更具有物理含义，所达到的性能也更优。

钱彦旻也谦虚地表示，他们的工作也只是对该方向的一个贡献，还需要科研人员持续、不断地深入研究。

RECOMMEND

斩获”AI最高奖”的语音技术

从懵懂入局，到深耕语音十余载

相关文章：