当前位置: 首页 > news >正文

刚刚拿下「中国AI最高奖」的语音技术,能给我们带来什么?

什么样的语音项目,能拿“中国AI最高奖”?

不久前,中国唯一国家级的人工智能科技奖——吴文俊人工智能科学技术奖,公布了最新一届的获奖名单。

而在人工智能自然科学奖的5个一等奖中,唯一一项语音相关的奖项,花落上海交通大学。这也是语音领域的研究成果第一次获得吴文俊人工智能科学技术奖的一等奖。

获奖人分别为:

  • 钱彦旻,上海交通大学计算机科学与工程系副教授、思必驰上海交通大学智能人机交互联合实验室副主任;

  • 俞凯,上交大计算机系教授、思必驰首席科学家;

  • 谭天,上交大博士毕业、思必驰语音技术研发工程师;

  • 刘媛,上交大硕士毕业。

不过稍微熟悉产业的盆友也知道,这个团队除了“上海交大”的底色,还都有独角兽思必驰的影子。

团队获奖所凭借的技术成果,叫“鲁棒语音信号模式分析与识别的深度结构化建模理论与方法”。

这到底是一项怎样的新技术?

斩获”AI最高奖”的语音技术

在语音分析与识别中,传统的用深度学习建模方式,主要是堆叠神经网络层数和神经元单元,或通过增加数据来提高性能。

但这种方式的一个缺点,就是往往不具备可解释性。

而钱彦旻团队的工作,便是将结构化的方法引入到模型设计和优化中,通过引入结构赋予神经网络更强的物理含义和参数解释,并利用人脑的听觉相关机理来指导这种结构的设计。这就会让其更具备可解释性,使得语音模型的优化目标更高效,最终提升语音信号分析与识别系统在各个场景下的鲁棒性。

进一步而言,主要分为三个主攻方向,分别是从信道环境来做的差异化工作。

在“信道”和“环境”方面,二者的研究往往是相伴相随,钱彦旻团队的研究集中在了对它们的表示与感知

例如2016年和2018年发表在顶刊IEEE TASLP上的 Very Deep Convolutional Neural Networks for Noise Robust Speech Recognition Adaptive Very Deep Convolutional Residual Network for Noise Robust Speech Recognition,便让语音识别在噪声环境下的也具有较好的鲁棒性。

钱彦旻团队首先在2016年的研究证明了极深卷积神经网络(VDCNN),具有优越的自主抗噪鲁棒性。

然后在2018年,在以上这项研究基础上,提出了一种更先进的模型,称为极深卷积残差网络 (VDCRN),并通过感知自适应技术,使得模型可以对环境变化做自动的调整。

简单来说,这个模型结合了批处理归一化和残差学习,比刚才提到的VDCNN具有更强的鲁棒性

而这项研究的重点集中在了因子感知训练(FAT)和聚类自适应训练(CAT)上。

对于FAT来说,团队探索了一个统一的框架,如上图所示。

至于CAT方面,则是提出了两种方案来构建规范模型,如下图所示。

最后,为了在嘈杂场景下获得最佳的系统性能,还提出了一个完整的多系统融合框架。

实验结果表明,新的VDCRN具有更强的鲁棒性,对该模型的自适应能进一步显著降低单词错误率。

特别是在Aurora4上,仅通过改进声学建模,就达到了5.67%的新里程碑。

,在语音识别过程中,也是一个非常重要的因素之一。

换言之 ,如何将一段语音中的人和人之间的区别,通过参数化的表示,在数学层面上展现出来。

在这方面,钱彦旻团队也做了相应的工作,早在2015年便发表了题为Deep feature for text-dependent speaker verification的研究。

值得注意的是,这项研究在2019年获得了语音领域权威期刊Speech Communication的最优论文奖。

这项研究为了让深度学习模型更好地融入到“说话人”的验证过程中,提出了从深度学习模型中提取更有说话人鉴别能力的新方法。

与传统的短时谱特征(例如MFCC、PLP)不同的是,钱彦旻团队采用了各种深度模型隐含层的输出作为深度特征,进行文本相关“说话人”验证。

具体而言,一共包括四种类型的深度模型:

  • 深度受限玻尔兹曼机(deep RBM)

  • 语音判别深度神经网络(speech-discriminant DNN)

  • 说话人判别深度神经网络(speaker-discriminant  DNN)

  • 多任务联合学习深度神经网络(multi-task joint-learned DNN)

一旦深度特征被提取出来,它们可以在GMM-UBM框架或示性向量(如,i-vector)框架内使用。

与此同时,团队还提出了“联合线性判别分析”和“概率线性判别分析”,作为基于示性向量深度特征的有效后端分类器。

实验结果表明,无论是直接应用于GMM-UBM系统,还是作为示性向量使用,基于所提出的结构化深度模型的新表示特征方法与传统基线相比,都能获得显著的性能提升。

当然,好的技术不能仅仅停留在实验室中的“结果数据”,更应该有落地,应当服务于人。

从懵懂入局,到深耕语音十余载

钱彦旻,便是让团队走向中国AI语音技术巅峰的领军人物之一。

钱彦旻是上海交通大学计算机科学与工程系副教授、博士生导师,同时也是思必驰上海交通大学智能人机交互联合实验室的副主任。

博士毕业于清华大学,之后曾在英国剑桥大学工程系MIL机器智能实验室深造,做博士后研究,回国后在上海交通大学计算机系任副教授。目前在语音技术领域已经发表学术论文150余篇,并多次获得最优论文奖励。

与此同时,他还是全球最流行的语音识别开源工具包Kaldi 13位创始人之一。

但在量子位与钱彦旻的交流过程中却发现,钱彦旻在语音技术上的造诣与成就,并非一开始的兴趣使然。

而关于钱彦旻与语音技术的故事,要从2007年开始讲起。

那时的他刚刚开启博士生涯,至于专业方向的选择,则是由其在清华的导师刘加教授推荐。

也就是在这时,便与语音技术有了初次的邂逅。

而刚入局的钱彦旻,用他自己的话说便是“瞎折腾”,博士在读2年后,才慢慢地做到了独立探索和深入研究。

也形成了适合自己的一套研究方法,可以对于一个语音技术的“点”,由浅入深,做比较深入、全面的研究。

在博士毕业之后,也就是在上海交通大学和英国剑桥大学期间,对于钱彦旻个人来讲,是在语音技术多个领域中快速深入推进研究的一个阶段。从博士期间专攻语音识别一个方向,扩展到了语音分类、抗噪、感知、声纹、多模态等语音技术的多个方面。

也就是在与语音技术一点一滴的接触过程当中,钱彦旻从一个“懵懂”的状态,逐步转变到了“热爱”。

于是,从2007年算起,这一入局,便深耕了13年之久。

在此过程中,除了刘教授之外,钱彦旻还提到了另外一个对他意义非凡的人,他便是Kaldi之父——Daniel Povey

Daniel在钱彦旻读博士期间给予了非常大的帮助,细到会帮钱彦旻看到代码,指导他“将某个参数从1.0调到2.0试试”这种程度。

甚至Daniel邀请钱彦旻出国一起参加Kaldi的开发,都是自掏腰包,极其慷慨的“包吃住”,为的就是共同专研探讨语音技术。

用钱彦旻的话来说:

他做人做事风格,人格的魅力,对科学的专注态度,也帮助我更加明确了研究后期的一些方向,坚定了自己的理想,也给予了我做这个方向的勇气和决心。

……

而作为此次获得“AI最高奖”的语音团队,站在2021年的开始,钱彦旻也对语音技术将有的一个趋势做了预测。

他认为深度学习在语音技术上的可解释学习还是不够,在这个过程当中具体都做了哪些事情还是不够清晰。

而这也是钱彦旻团队能够获得此次奖项的主要原因,他们的研究让模型设计更具有物理含义,所达到的性能也更优。

钱彦旻也谦虚地表示,他们的工作也只是对该方向的一个贡献,还需要科研人员持续、不断地深入研究。

RECOMMEND

推荐阅读

01

《智能语音处理》

长按识别购买

推荐理由

十余年深耕智能语音处理的研究结晶,人工智能在语音处理领域的应用成果。本书系统性地阐述智能语音处理技术,并重点以机器学习等技术及其在语音处理中的典型应用,理论与实践联系紧密。

02

《听觉系统与鸡尾酒会问题》

长按识别购买

推荐理由

听觉心理学和神经学国际专家编著,中科院自动化所类脑计算团队翻译,系统阐述语音识别领域挑战性难题。


更多精彩回顾

书讯 | 1月书讯:Hello 2021! (上)

书讯 | 1月书讯:Hello 2021! (下)

资讯 | TIOBE 1 月编程语言:Python 摘得 2020 年度编程语言!

书单 | 8本书助你了解人民日报“创作大脑”

干货 | 曾被“劝退”的 C++ 20 正式发布!

收藏 | DB-Engines:PostgreSQL获得“2020年度数据库”荣誉

上新 | ECharts开山之作,官方推荐!精心规划适合初学者的ECharts学习路径!

赠书 | 【第38期】移动边缘计算MEC,站在5G“中央”

相关文章:

  • 百度官方文档Plus版,PaddlePaddle深度学习框架介绍
  • 华为首席开源联络官执笔,带你了解5G时代的边缘计算
  • 寒假到了,神兽归笼?程序员整治“熊孩子”有妙招
  • 读完《Effective Java》后,我总结了 50 条开发技巧
  • 手把手教你如何制作可视化大屏!
  • 使用 SQL 语句实现一个年会抽奖程序
  • 构建全球第三大移动生态,2021年,华为HMS生态要起飞了!
  • 2020年云原生技术关键趋势总结
  • 【第40期】不可错过的数据挖掘好书
  • 6个关键步骤,手把手教你构建图模型
  • 六个步骤实现数据埋点方案设计
  • 深度解析DDD中台和微服务设计
  • Apache ECharts 5 震撼发布:五大模块,十五项新特性全面升级!
  • ClickHouse大数据领域企业级应用实践和探索总结
  • 官宣了!Apache ECharts 毕业成为 Apache 软件基金会顶级项目!
  • java B2B2C 源码多租户电子商城系统-Kafka基本使用介绍
  • MD5加密原理解析及OC版原理实现
  • Transformer-XL: Unleashing the Potential of Attention Models
  • 开发基于以太坊智能合约的DApp
  • 聊聊flink的BlobWriter
  • 浅析微信支付:申请退款、退款回调接口、查询退款
  • 入门级的git使用指北
  • 视频flv转mp4最快的几种方法(就是不用格式工厂)
  • 智能网联汽车信息安全
  • 《码出高效》学习笔记与书中错误记录
  • # Swust 12th acm 邀请赛# [ A ] A+B problem [题解]
  • #【QT 5 调试软件后,发布相关:软件生成exe文件 + 文件打包】
  • #DBA杂记1
  • #我与Java虚拟机的故事#连载19:等我技术变强了,我会去看你的 ​
  • (04)Hive的相关概念——order by 、sort by、distribute by 、cluster by
  • (3)STL算法之搜索
  • (bean配置类的注解开发)学习Spring的第十三天
  • (阿里巴巴 dubbo,有数据库,可执行 )dubbo zookeeper spring demo
  • (附源码)springboot 房产中介系统 毕业设计 312341
  • (规划)24届春招和25届暑假实习路线准备规划
  • (每日持续更新)信息系统项目管理(第四版)(高级项目管理)考试重点整理 第13章 项目资源管理(七)
  • (十七)Flask之大型项目目录结构示例【二扣蓝图】
  • (一)UDP基本编程步骤
  • (原創) 如何解决make kernel时『clock skew detected』的warning? (OS) (Linux)
  • (转)总结使用Unity 3D优化游戏运行性能的经验
  • .bat批处理出现中文乱码的情况
  • .NET 程序如何获取图片的宽高(框架自带多种方法的不同性能)
  • .net 生成二级域名
  • .NET/C# 编译期间能确定的相同字符串,在运行期间是相同的实例
  • .NET简谈互操作(五:基础知识之Dynamic平台调用)
  • .NET业务框架的构建
  • .net与java建立WebService再互相调用
  • .NET运行机制
  • .net之微信企业号开发(一) 所使用的环境与工具以及准备工作
  • .sh文件怎么运行_创建优化的Go镜像文件以及踩过的坑
  • /etc/shadow字段详解
  • @angular/cli项目构建--http(2)
  • @取消转义
  • [ 云计算 | AWS 实践 ] Java 如何重命名 Amazon S3 中的文件和文件夹
  • []指针