本研究提出了一种新方法,通过自监督学习预训练深度神经网络,利用虚拟现实中的空间音频-视觉录音进行声音事件定位和检测。实验结果表明,该方法显著降低了定位和检测误差,展示了音频-视觉整合的潜力。
本研究探讨了大型音频语言模型在理解音频和语言信息时的幻觉问题。通过三个评估任务,发现模型在识别声音事件、确定事件顺序和识别声音来源方面存在局限性。引入多轮链式思维方法后,模型表现有所提升。
本文介绍了DCASE挑战赛中的声音事件定位与检测(SELD)任务及其基准方法。研究提出了一种基于神经网络的模型,能够在干扰场景下有效检测和定位声音事件。通过音频与视觉结合的方法,进一步提升了检测精度,并构建了相应的数据集和评估框架。
完成下面两步后,将自动完成登录并继续当前操作。