当前位置: 首页 > news >正文

Pooling方法总结(语音识别)

Pooling layer将变长的frame-level features转换为一个定长的向量。

1. Statistics Pooling

链接:http://danielpovey.com/files/2017_interspeech_embeddings.pdf

The default pooling method for x-vector is statistics pooling.

The statistics pooling layer calculates the mean vector µ as well as the second-order statistics as the standard deviation vector σ over frame-level features ht (t = 1, · · · , T ).

2. Attentive Statistics Pooling

链接:https://arxiv.org/pdf/1803.10963.pdf

在一段话中,往往某些帧的帧级特征比其他帧的特征更为独特重要,因此使用attention赋予每帧feature不同的权值。

其中f(.)代表非线性变换,如tanh or ReLU function。

最后将每帧特征加劝求和

3. Self-Attentive pooling

链接:https://danielpovey.com/files/2018_interspeech_xvector_attention.pdf

4. Self Multi-Head Attention pooling

论文:Multi-Resolution Multi-Head Attention in Deep Speaker Embedding | IEEE Conference Publication | IEEE Xplore

5. NetVLAD

论文:

https://arxiv.org/pdf/1902.10107.pdf

https://arxiv.org/pdf/1511.07247.pdf

更详细的解释参考:从VLAD到NetVLAD,再到NeXtVlad - 知乎

6. Learnable Dictionary Encoding (LDE)

论文:https://arxiv.org/pdf/1804.05160.pdf

we introduce two groups of learnable parameters. One is the dictionary component center, noted as µ = {µ1, µ2 · · · µc}. The other one is assigned weights, noted as w.

where the smoothing factor  s_cfor each dictionary center u_cis learnable.

7. Attentive Bilinear Pooling (ABP) - Interspeech 2020

论文:https://www.isca-speech.org/archive/Interspeech_2020/pdfs/1922.pdf

Let H \in \mathbb{R}^{L\times D} be the frame-level feature map captured by the hidden layer below the self-attention layer, where L and D are the number of frames and feature dimension respectively. Then the attention map A \in \mathbb{R}^{K\times L} can be obtained by feeding H into a 1×1 convolutional layer followed by softmax non-linear activation, where K is the number of attention heads. The 1st-order and 2nd-order attentive statistics of H, denoted by µ and \sigma ^{2} , can be computed similar as crosslayer bilinear pooling, which is

where T1(x) is the operation of reshaping x into a vector, and T2(x) includes a signed square-root step and a L2- normalization step.  The output of ABP is the concatenation of µ and \sigma ^{2}

8. Short-time Spectral Pooling (STSP) - ICASSP 2021

​​​​​​​​​​​​​​​​​​​​​​​​​​​​https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9414094&tag=1icon-default.png?t=N7T8https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9414094&tag=1From a Fourier perspective, statistics pooling only exploits the DC (zero-frequency) components in the spectral domain, whereas STSP incorporates more spectral components besides the DC ones during aggregation and is able to retain richer speaker information.

1. 将卷积层提取到的特征做STFT(Short Time Fourier Transorm),每一个channel得到一个二维频谱图。

2. 计算averaged spectral array

3. 计算second-order spectral statistics

4. 将两个特征进行拼接(C is the number of channels)

9. Multi-head attentive STSP (IEEE TRANS. ON AUDIO, SPEECH, AND LANGUAGE PROCESSING 2022)

One limitation of STSP is that the brute average of the spectrograms along the temporal axis ignores the importance of individual windowed segments when computing the spectral representations. In other words, all segments in a specific spectrogram were treated with equal importance.

相关文章:

  • Farad capacitor法拉电容为什么又称Super capacitor超级电容?
  • 2024最新软件测试面试题(带答案)
  • 【数据结构之顺序表】
  • 掌握Jenknis基础概念
  • 【华为机试】2023年真题B卷(python)-乘坐保密电梯
  • 持续集成交付CICD:HELM 自动化完成前端项目应用发布与回滚
  • HBase基础知识(二):HBase集群部署、HBaseShell操作
  • Linux的/proc/self/学习
  • Starting the Docker Engine...一直转圈
  • 中国人民大学金融加拿大女王大学硕士项目——你愿意花一年时间完成蜕变吗
  • SAP系统标准表之间的关联关系对应
  • 职场遇到瓶颈如何破解?不妨看看中国人民大学金融加拿大女王大学硕士项目
  • 微信商家0.2费率如何申请
  • 服务器量化训练操作说明
  • 虾皮广告怎么做:如何在虾皮平台上进行广告投放
  • 【附node操作实例】redis简明入门系列—字符串类型
  • ➹使用webpack配置多页面应用(MPA)
  • Akka系列(七):Actor持久化之Akka persistence
  • css属性的继承、初识值、计算值、当前值、应用值
  • Dubbo 整合 Pinpoint 做分布式服务请求跟踪
  • FastReport在线报表设计器工作原理
  • JavaSE小实践1:Java爬取斗图网站的所有表情包
  • python大佬养成计划----difflib模块
  • vue2.0一起在懵逼的海洋里越陷越深(四)
  • vue-router的history模式发布配置
  • 阿里云前端周刊 - 第 26 期
  • 安装python包到指定虚拟环境
  • 翻译--Thinking in React
  • ------- 计算机网络基础
  • 聊聊flink的TableFactory
  • 算法-插入排序
  • 移动互联网+智能运营体系搭建=你家有金矿啊!
  • 积累各种好的链接
  • ​【原创】基于SSM的酒店预约管理系统(酒店管理系统毕业设计)
  • ​创新驱动,边缘计算领袖:亚马逊云科技海外服务器服务再进化
  • #define用法
  • $refs 、$nextTic、动态组件、name的使用
  • (02)Hive SQL编译成MapReduce任务的过程
  • (4)通过调用hadoop的java api实现本地文件上传到hadoop文件系统上
  • (C语言)求出1,2,5三个数不同个数组合为100的组合个数
  • (ros//EnvironmentVariables)ros环境变量
  • (附源码)spring boot球鞋文化交流论坛 毕业设计 141436
  • (附源码)springboot码头作业管理系统 毕业设计 341654
  • (个人笔记质量不佳)SQL 左连接、右连接、内连接的区别
  • (六) ES6 新特性 —— 迭代器(iterator)
  • (三)Hyperledger Fabric 1.1安装部署-chaincode测试
  • (四) 虚拟摄像头vivi体验
  • (转)es进行聚合操作时提示Fielddata is disabled on text fields by default
  • (转)jQuery 基础
  • ***测试-HTTP方法
  • .bat批处理(二):%0 %1——给批处理脚本传递参数
  • .bat批处理(七):PC端从手机内复制文件到本地
  • .NET 4 并行(多核)“.NET研究”编程系列之二 从Task开始
  • .NET 材料检测系统崩溃分析
  • .NET 中什么样的类是可使用 await 异步等待的?