小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种新方法，通过自监督学习预训练深度神经网络，利用虚拟现实中的空间音频-视觉录音进行声音事件定位和检测。实验结果表明，该方法显著降低了定位和检测误差，展示了音频-视觉整合的潜力。

DOA-Aware Audio-Visual Self-Supervised Learning for Sound Event Localization and Detection

BriefGPT - AI 论文速递 ·

本研究探讨了大型音频语言模型在理解音频和语言信息时的幻觉问题。通过三个评估任务，发现模型在识别声音事件、确定事件顺序和识别声音来源方面存在局限性。引入多轮链式思维方法后，模型表现有所提升。

Can Large Audio-Language Models Truly 'Hear'? Tackling Hallucination Phenomena through Multi-Task Assessment and Stepwise Audio Reasoning

BriefGPT - AI 论文速递 ·

本文介绍了DCASE挑战赛中的声音事件定位与检测（SELD）任务及其基准方法。研究提出了一种基于神经网络的模型，能够在干扰场景下有效检测和定位声音事件。通过音频与视觉结合的方法，进一步提升了检测精度，并构建了相应的数据集和评估框架。

声音事件检测和定位与距离估计

BriefGPT - AI 论文速递 ·