当前位置: 首页 > news >正文

用于目标说话人提取的统一视听线索

第二章 目标说话人提取之《Unified Audio Visual Cues for Target Speaker Extraction



前言

语音新手入门,学习读懂论文。
本文作者机构是
在这里插入图片描述


一、任务

提出了一个统一的TSE网络,称为Uni-Net,它采用分而治之的策略将音频和嘴唇线索融合到不同的网络中,利用每个线索的独特信息。从各种线索中提取的语音作为先验信息,通过后处理网络进一步细化。

二、动机

语音注册的方法会面临一些问题,如年龄和情绪会改变说话人的声音特征。此外,由于混合物中相似的语音特性,性能也会下降。

三、挑战

音频线索反映了说话者独特的声音属性,而视觉线索与目标语音在时间上是同步的。此外,音频线索是时不变的,而视觉线索是时变的,导致两者之间的差异。因此,在混合语音的共享网络中集成音频和视觉线索并不是最佳选择。这些线索会相互干扰,严重阻碍了性能的提高。

四、方法

1.总体架构

在这里插入图片描述
提出的框架由三个部分组成:基于音频线索的提取子网(ACENet)、基于视觉线索的提取子网(VCENet)和后处理网络(PPNet)。

2.tes网络

在这里插入图片描述
对于视觉提取器,我们使用了一个3D卷积层,然后是一个18层的ResNet和一个时间卷积网络(TCN)。音频提取器采用长短期记忆(LSTM)单元和线性层的组合。
TCN包含一个卷积层、一个Relu激活层和一个层归一化层。
TF-GridNet开发了ACENet和VCENet,它们代表了最先进的语音分离性能。TF-GridNet在STFT域内训练,使用二维卷积和层归一化对复频谱进行编码。每个TF-Grid块包括三个主要模块:帧内频谱模块、子带时间模块和全带自注意模块。
帧内频谱模块将输入R (D×T ×F)解释为T个不同的序列在T上做,并部署BLSTM来捕获每帧的全频带和频谱信息。
子带时间模块将输入R D×T ×F视为F个单独的序列,利用BLSTM捕获每个频率内的时间动态。
全频带自注意模块中,输入被重塑为大小为T × (F × D)的表示,其中多头自注意被用于建模全局依赖关系。

3. 融合网络

在这里插入图片描述
实现了 in-place 卷积作为后处理网络,该架构包括三个主要组件:Inplace Encoder、Frequency-wise LSTM 和 Inplace Decoder。Inplace Encoder 和 Inplace Decoder 都采用了六层 in-place 卷积操作。in-place 卷积采用步幅为 1,从而保留了频谱细节,并促进了对通道间相关性的分析。

4.损失函数

在这里插入图片描述
使用尺度不变的信噪比(硅信噪比)[23]作为损失函数

五、实验评价

1.数据集

VoxCeleb2数据集,选择了48,000个包含800个说话者的话语进行训练,并从118个不同的说话者中选择了36,237个话语进行测试,确保两个集之间没有说话者重叠。 干扰语音与目标语音合并,使用随机的信噪比(SNR)在-10dB到10db之间变化。

2.消融实验

在这里插入图片描述

3.客观评价

作者 提出的框架显著优于SpeakerBeam,在SISNRi、SDRi、PESQ和STOI方面分别提高了1.72 dB、1.63 dB、0.46 dB和3.3%。
在这里插入图片描述
视觉线索被遮挡时,作者进一步评估了提出的框架和基线的鲁棒性。
在这里插入图片描述
不同遮挡程度下的对比。

在这里插入图片描述

4.主观评价


六、结论

作者提出了一个统一的目标说话人提取框架,以克服音频和视觉线索之间的冲突。具体来说,作者利用分而治之的方法,将音频和视觉线索集成到不同的子网中,以利用每个线索提供的独特信息。还引入了一种后处理网络,进一步提取目标语音并抑制干扰。实验证明,作者的网络架构与其他具有竞争力的基线相比,该方法具有优越的性能。

七、知识小结

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • CSS3 3D 转换
  • GPT-6曝光!阉割版「草莓」秋季兑现
  • qtcreator的vim模式下commit快捷键ctrl+g,ctrl+c没有反应的问题
  • labelImg使用
  • 基于网络技术的天气数据查询
  • 在 Spring Boot 中为 MyBatis 添加拦截器
  • .Net 6.0--通用帮助类--FileHelper
  • python基础语法1
  • JavaSE ——类和对象
  • 并发式服务器
  • 最新国内Docker 安装
  • 数学建模学习(126):基于Python的最优最劣法(BWM)在多标准决策中的应用
  • 并发服务器---IO多路复用
  • 24暑假算法刷题 | Day39 | 动态规划 VII | LeetCode 198. 打家劫舍,213. 打家劫舍 II,337. 打家劫舍 III
  • mysql的group by怎么用
  • 0基础学习移动端适配
  • ComponentOne 2017 V2版本正式发布
  • java第三方包学习之lombok
  • leetcode-27. Remove Element
  • PAT A1092
  • Redis中的lru算法实现
  • spring cloud gateway 源码解析(4)跨域问题处理
  • 闭包--闭包作用之保存(一)
  • 从零搭建Koa2 Server
  • 浮现式设计
  • 爬虫进阶 -- 神级程序员:让你的爬虫就像人类的用户行为!
  • 腾讯视频格式如何转换成mp4 将下载的qlv文件转换成mp4的方法
  • 我有几个粽子,和一个故事
  • 在Unity中实现一个简单的消息管理器
  • 自制字幕遮挡器
  • 如何正确理解,内页权重高于首页?
  • ​学习一下,什么是预包装食品?​
  • # 20155222 2016-2017-2 《Java程序设计》第5周学习总结
  • #etcd#安装时出错
  • #pragam once 和 #ifndef 预编译头
  • (LeetCode) T14. Longest Common Prefix
  • (Redis使用系列) Springboot 使用redis实现接口幂等性拦截 十一
  • (二)测试工具
  • (二)原生js案例之数码时钟计时
  • (学习日记)2024.03.12:UCOSIII第十四节:时基列表
  • (转)Linux NTP配置详解 (Network Time Protocol)
  • (转载)虚幻引擎3--【UnrealScript教程】章节一:20.location和rotation
  • (轉貼) 寄發紅帖基本原則(教育部禮儀司頒布) (雜項)
  • .net core 依赖注入的基本用发
  • .net refrector
  • .net Signalr 使用笔记
  • .NET的微型Web框架 Nancy
  • .net对接阿里云CSB服务
  • .NET未来路在何方?
  • .project文件
  • /etc/skel 目录作用
  • ??如何把JavaScript脚本中的参数传到java代码段中
  • [ vulhub漏洞复现篇 ] GhostScript 沙箱绕过(任意命令执行)漏洞CVE-2019-6116
  • []新浪博客如何插入代码(其他博客应该也可以)
  • [1181]linux两台服务器之间传输文件和文件夹