虚拟环境中的声源定位的音频模拟
原文中文,约200字,阅读约需1分钟。发表于: 。挑战性且相关的问题是在信号受限环境中实现非直视定位。本研究利用物理基础声波传播模拟和机器学习方法,在虚拟环境中定位声源到具体位置,以克服数据不足的问题,特别是在事后定位中。通过音频变换器谱图方法,我们达到了 0.786 ± 0.0136 的 F1 得分。
该研究提出了一种音频-视觉空间整合网络,利用音频和视觉模态的空间线索来模仿人类在检测声音对象时的行为。通过递归注意网络,可以形成更准确的注意区域。实验结果显示该方法在声源定位方面优于现有方法。