当前位置：首页 > news >正文

【AI视野·今日Sound 声学论文速览第五十四期】Thu, 7 Mar 2024

news 来源：原创 2024/5/16 9:50:58

AI视野·今日CS.Sound 声学论文速览
Thu, 7 Mar 2024
Totally 8 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Can Audio Reveal Music Performance Difficulty? Insights from the Piano Syllabus Dataset
Authors Pedro Ramoneda, Minhee Lee, Dasaem Jeong, J.J. Valero Mas, Xavier Serra
自动评估音乐作品的演奏难度是音乐教育中根据学生的个人需求创建定制课程的关键过程。鉴于其相关性，音乐信息检索 MIR 领域描述了一些解决此任务的概念证明工作，主要关注高级音乐抽象，例如机器可读乐谱或乐谱图像。在这方面，直接分析录音的潜力通常被忽视，这阻止了学生探索可能没有正式符号级别转录的各种音乐作品。这项工作开创了自动估计录音中音乐作品的演奏难度的先河，有两个精确的贡献：第一个基于音频的难度估计数据集，即钢琴教学大纲 PSyllabus 数据集，包含来自 1,233 名作曲家的 11 个难度级别的 7,901 首钢琴曲，以及一个识别框架能够管理直接从音频派生的单模态和多模态方式的不同输入表示，以执行难度估计任务。包括不同预训练方案、输入模式和多任务场景的综合实验证明了该提案的有效性，并将 PSyllabus 建立为 MIR 领域基于音频的难度估计的参考数据集。

RADIA -- Radio Advertisement Detection with Intelligent Analytics
Authors Jorge lvarez, Juan Carlos Armenteros, Camilo Torr n, Miguel Ortega Mart n, Alfonso Ardoiz, scar Garc a, Ignacio Arranz, igo Galdeano, Ignacio Garrido, Adri n Alonso, Fernando Bay n, Oleg Vorontsov
广播广告仍然是现代营销策略不可或缺的一部分，其吸引力和目标受众潜力无可否认是有效的。然而，广播播放时间的动态性质和多个广播节目的增长趋势需要一个有效的系统来监控广告广播。本研究研究了一种新颖的自动广播广告检测技术，结合了先进的语音识别和文本分类算法。 RadIA 的方法超越了传统方法，无需事先了解广播内容。这一贡献允许检测即兴广告和新引入的广告，为无线电广播中的广告检测提供全面的解决方案。实验结果表明，所得到的模型经过仔细分段和标记的文本数据的训练，取得了 87.76 的 F1 宏观分数，而理论最大值为 89.33。本文深入探讨了超参数的选择及其对模型性能的影响。这项研究证明了它在确保遵守广告广播合同和提供竞争性监控方面的潜力。

Non-verbal information in spontaneous speech - towards a new framework of analysis
Authors Tirza Biron, Moshe Barboy, Eran Ben Artzy, Alona Golubchik, Yanir Marmor, Smadar Szekely, Yaron Winter, David Harel
语音中的非语言信号由韵律编码，并携带从对话动作到态度和情感的信息。尽管它很重要，但控制韵律结构的原则尚未得到充分理解。本文为韵律信号的分类及其与意义的关联提供了分析模式和技术概念证明。该模式解释了多层韵律事件的表面表征。作为实现的第一步，我们提出了一个分类过程，可以解开三个顺序的韵律现象。它依赖于微调预训练的语音识别模型，从而实现同时多类多标签检测。它概括了各种各样的自发数据，其性能与人类注释相当或优于人类注释。除了韵律的标准化形式化之外，解开韵律模式还可以指导沟通和言语组织的理论。

METAMAT 01: A semi-analytic Solution for Benchmarking Wave Propagation Simulations of homogeneous Absorbers in 1D/3D and 2D
Authors Stefan Schoder, Paul Maurerlehner
时域描述中声学仿真工作流程的开发对于预测气动声学或其他瞬态声学效应的声音至关重要。减轻噪音的常见做法是使用吸收器。这些吸声器的建模通常在频域中提供。建立了多种方法来弥补这一差距，研究在时域中对吸收器进行建模的方法。因此，这篇短文描述了时域解析解，用于对无限 1D、2D 和 3D 域的吸收体模拟进行基准测试。连接到解析解，提供Matlab脚本以轻松获得参考解。

Interactive Melody Generation System for Enhancing the Creativity of Musicians
Authors So Hirawata, Noriko Otani
这项研究提出了一个系统，旨在使用自动音乐创作技术来枚举人类之间的协作创作过程。通过集成多个循环神经网络 RNN 模型，该系统提供了类似于与多位作曲家合作的体验，从而培养了多样化的创造力。通过根据反馈动态适应用户的创作意图，系统增强了生成符合用户偏好和创作需求的旋律的能力。通过对不同背景的作曲家进行的实验评估了该系统的有效性，揭示了其促进音乐创造力的潜力，并提出了进一步完善的途径。该研究强调了作曲家与人工智能之间互动的重要性，旨在使音乐创作变得更容易理解和个性化。

Comparison Performance of Spectrogram and Scalogram as Input of Acoustic Recognition Task
Authors Dang Thoai Phan, Andre Jakob, Marcus Purat
声学识别是最近研究中深度学习的常见任务，采用短时傅里叶变换和小波变换等频谱特征提取。然而，没有多少研究发现讨论光谱特征提取器的优缺点以及性能比较。考虑到这一点，本文旨在比较这两种变换类型（称为谱图和尺度图）的属性。实现了用于声学故障识别的卷积神经网络，然后记录这两种类型的频谱提取器的性能以进行比较。考虑对同一音频数据库进行最新研究进行基准测试，以了解设计的频谱图和尺度图的效果如何。还分析了它们的优点和局限性。

Reinforcement Learning Jazz Improvisation: When Music Meets Game Theory
Authors Vedant Tapiavala, Joshua Piesner, Sourjyamoy Barman, Feng Fu
现场音乐表演总是迷人的，由于音乐家之间的动态以及与观众的互动，即兴创作具有不可预测性。爵士乐即兴创作是一个特别值得从理论角度进一步研究的例子。在这里，我们介绍了一种新颖的爵士乐即兴创作数学博弈论模型，为研究音乐理论和即兴创作方法提供了框架。我们使用计算模型（主要是强化学习）来探索不同的随机即兴策略及其在即兴创作中的配对表现。我们发现最有效的策略对是一种对最近的收益逐步变化做出反应的策略，其强化学习策略仅限于给定和弦中的音符和弦跟随强化学习。相反，对合作伙伴的最后一个音符做出反应并尝试与其和谐预测策略对协调的策略会产生最低的非控制收益和最高的标准偏差，这表明根据对合作伙伴玩家的即时反应来选择音符可能会产生不一致的结果。平均而言，和弦跟随强化学习策略表现出最高的平均回报，而和声预测表现出最低的平均回报。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com