当前位置: 首页 > news >正文

【AI视野·今日Sound 声学论文速览 第五十四期】Thu, 7 Mar 2024

AI视野·今日CS.Sound 声学论文速览
Thu, 7 Mar 2024
Totally 8 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Can Audio Reveal Music Performance Difficulty? Insights from the Piano Syllabus Dataset
Authors Pedro Ramoneda, Minhee Lee, Dasaem Jeong, J.J. Valero Mas, Xavier Serra
自动评估音乐作品的演奏难度是音乐教育中根据学生的个人需求创建定制课程的关键过程。鉴于其相关性,音乐信息检索 MIR 领域描述了一些解决此任务的概念证明工作,主要关注高级音乐抽象,例如机器可读乐谱或乐谱图像。在这方面,直接分析录音的潜力通常被忽视,这阻止了学生探索可能没有正式符号级别转录的各种音乐作品。这项工作开创了自动估计录音中音乐作品的演奏难度的先河,有两个精确的贡献:第一个基于音频的难度估计数据集,即钢琴教学大纲 PSyllabus 数据集,包含来自 1,233 名作曲家的 11 个难度级别的 7,901 首钢琴曲,以及一个识别框架能够管理直接从音频派生的单模态和多模态方式的不同输入表示,以执行难度估计任务。包括不同预训练方案、输入模式和多任务场景的综合实验证明了该提案的有效性,并将 PSyllabus 建立为 MIR 领域基于音频的难度估计的参考数据集。

RADIA -- Radio Advertisement Detection with Intelligent Analytics
Authors Jorge lvarez, Juan Carlos Armenteros, Camilo Torr n, Miguel Ortega Mart n, Alfonso Ardoiz, scar Garc a, Ignacio Arranz, igo Galdeano, Ignacio Garrido, Adri n Alonso, Fernando Bay n, Oleg Vorontsov
广播广告仍然是现代营销策略不可或缺的一部分,其吸引力和目标受众潜力无可否认是有效的。然而,广播播放时间的动态性质和多个广播节目的增长趋势需要一个有效的系统来监控广告广播。本研究研究了一种新颖的自动广播广告检测技术,结合了先进的语音识别和文本分类算法。 RadIA 的方法超越了传统方法,无需事先了解广播内容。这一贡献允许检测即兴广告和新引入的广告,为无线电广播中的广告检测提供全面的解决方案。实验结果表明,所得到的模型经过仔细分段和标记的文本数据的训练,取得了 87.76 的 F1 宏观分数,而理论最大值为 89.33。本文深入探讨了超参数的选择及其对模型性能的影响。这项研究证明了它在确保遵守广告广播合同和提供竞争性监控方面的潜力。

Non-verbal information in spontaneous speech - towards a new framework of analysis
Authors Tirza Biron, Moshe Barboy, Eran Ben Artzy, Alona Golubchik, Yanir Marmor, Smadar Szekely, Yaron Winter, David Harel
语音中的非语言信号由韵律编码,并携带从对话动作到态度和情感的信息。尽管它很重要,但控制韵律结构的原则尚未得到充分理解。本文为韵律信号的分类及其与意义的关联提供了分析模式和技术概念证明。该模式解释了多层韵律事件的表面表征。作为实现的第一步,我们提出了一个分类过程,可以解开三个顺序的韵律现象。它依赖于微调预训练的语音识别模型,从而实现同时多类多标签检测。它概括了各种各样的自发数据,其性能与人类注释相当或优于人类注释。除了韵律的标准化形式化之外,解开韵律模式还可以指导沟通和言语组织的理论。

METAMAT 01: A semi-analytic Solution for Benchmarking Wave Propagation Simulations of homogeneous Absorbers in 1D/3D and 2D
Authors Stefan Schoder, Paul Maurerlehner
时域描述中声学仿真工作流程的开发对于预测气动声学或其他瞬态声学效应的声音至关重要。减轻噪音的常见做法是使用吸收器。这些吸声器的建模通常在频域中提供。建立了多种方法来弥补这一差距,研究在时域中对吸收器进行建模的方法。因此,这篇短文描述了时域解析解,用于对无限 1D、2D 和 3D 域的吸收体模拟进行基准测试。连接到解析解,提供Matlab脚本以轻松获得参考解。

Interactive Melody Generation System for Enhancing the Creativity of Musicians
Authors So Hirawata, Noriko Otani
这项研究提出了一个系统,旨在使用自动音乐创作技术来枚举人类之间的协作创作过程。通过集成多个循环神经网络 RNN 模型,该系统提供了类似于与多位作曲家合作的体验,从而培养了多样化的创造力。通过根据反馈动态适应用户的创作意图,系统增强了生成符合用户偏好和创作需求的旋律的能力。通过对不同背景的作曲家进行的实验评估了该系统的有效性,揭示了其促进音乐创造力的潜力,并提出了进一步完善的途径。该研究强调了作曲家与人工智能之间互动的重要性,旨在使音乐创作变得更容易理解和个性化。

Comparison Performance of Spectrogram and Scalogram as Input of Acoustic Recognition Task
Authors Dang Thoai Phan, Andre Jakob, Marcus Purat
声学识别是最近研究中深度学习的常见任务,采用短时傅里叶变换和小波变换等频谱特征提取。然而,没有多少研究发现讨论光谱特征提取器的优缺点以及性能比较。考虑到这一点,本文旨在比较这两种变换类型(称为谱图和尺度图)的属性。实现了用于声学故障识别的卷积神经网络,然后记录这两种类型的频谱提取器的性能以进行比较。考虑对同一音频数据库进行最新研究进行基准测试,以了解设计的频谱图和尺度图的效果如何。还分析了它们的优点和局限性。

Reinforcement Learning Jazz Improvisation: When Music Meets Game Theory
Authors Vedant Tapiavala, Joshua Piesner, Sourjyamoy Barman, Feng Fu
现场音乐表演总是迷人的,由于音乐家之间的动态以及与观众的互动,即兴创作具有不可预测性。爵士乐即兴创作是一个特别值得从理论角度进一步研究的例子。在这里,我们介绍了一种新颖的爵士乐即兴创作数学博弈论模型,为研究音乐理论和即兴创作方法提供了框架。我们使用计算模型(主要是强化学习)来探索不同的随机即兴策略及其在即兴创作中的配对表现。我们发现最有效的策略对是一种对最近的收益逐步变化做出反应的策略,其强化学习策略仅限于给定和弦中的音符和弦跟随强化学习。相反,对合作伙伴的最后一个音符做出反应并尝试与其和谐预测策略对协调的策略会产生最低的非控制收益和最高的标准偏差,这表明根据对合作伙伴玩家的即时反应来选择音符可能会产生不一致的结果。平均而言,和弦跟随强化学习策略表现出最高的平均回报,而和声预测表现出最低的平均回报。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

相关文章:

  • 安装zabbix
  • C++ 特殊的类设计
  • 小米汽车上市进入倒计时,已开启内部试驾
  • 1.3 vue ui框架-element-ui框架
  • nicegui学习使用
  • 大语言模型系列-GPT-2
  • 解读电影级视频生成模型 MovieFactory
  • VUE——v-once指令
  • 一些硬件知识(六)
  • 24/03/07总结
  • 清除Mac OS上Xcode占用的空间
  • 第一次捡垃圾
  • 自然语言处理 | 语言模型(LM) 浅析
  • RPC——远程过程调用
  • 蓝桥杯-排序
  • 【跃迁之路】【444天】程序员高效学习方法论探索系列(实验阶段201-2018.04.25)...
  • 10个确保微服务与容器安全的最佳实践
  • CEF与代理
  • CSS盒模型深入
  • es6
  • export和import的用法总结
  • leetcode46 Permutation 排列组合
  • Python进阶细节
  • seaborn 安装成功 + ImportError: DLL load failed: 找不到指定的模块 问题解决
  • 初识MongoDB分片
  • 经典排序算法及其 Java 实现
  • 排序(1):冒泡排序
  • ​卜东波研究员:高观点下的少儿计算思维
  • #stm32驱动外设模块总结w5500模块
  • (react踩过的坑)Antd Select(设置了labelInValue)在FormItem中initialValue的问题
  • (zz)子曾经曰过:先有司,赦小过,举贤才
  • (多级缓存)多级缓存
  • (二)丶RabbitMQ的六大核心
  • (每日持续更新)jdk api之FileReader基础、应用、实战
  • (十)【Jmeter】线程(Threads(Users))之jp@gc - Stepping Thread Group (deprecated)
  • (四)图像的%2线性拉伸
  • (五)IO流之ByteArrayInput/OutputStream
  • (转)【Hibernate总结系列】使用举例
  • **PyTorch月学习计划 - 第一周;第6-7天: 自动梯度(Autograd)**
  • .net core 调用c dll_用C++生成一个简单的DLL文件VS2008
  • .NET Core中Emit的使用
  • .Net Web项目创建比较不错的参考文章
  • .Net Winform开发笔记(一)
  • .NET 简介:跨平台、开源、高性能的开发平台
  • .NET 药厂业务系统 CPU爆高分析
  • .NET单元测试
  • .NET多线程执行函数
  • /etc/sudoer文件配置简析
  • @ 代码随想录算法训练营第8周(C语言)|Day57(动态规划)
  • [.NET 即时通信SignalR] 认识SignalR (一)
  • [.NET]桃源网络硬盘 v7.4
  • [BUUCTF NewStarCTF 2023 公开赛道] week3 crypto/pwn
  • [C# 开发技巧]如何使不符合要求的元素等于离它最近的一个元素
  • [EFI]Acer Aspire A515-54g电脑 Hackintosh 黑苹果efi引导文件
  • [HDU3710]Battle over Cities