本研究提出了一种基于音视频融合的Conformer模型,旨在改善音响事件定位与检测中的距离估计问题。通过ResNet50提取音视频嵌入,性能显著提升,尽管F1分数有所下降,但未来实验仍有改进空间。
本文提出了一种新方法,将声音事件检测与定位拓展到包含距离估计的三维声音事件检测、定位。通过多任务和单任务两种方法研究了在不同背景下的实现方案,并探究了与距离估计相关的损失函数。实验结果表明,在不降低准确性的情况下,可以进行三维声音事件检测、定位。
完成下面两步后,将自动完成登录并继续当前操作。