小红花·文摘

本研究提出了一种基于音视频融合的Conformer模型，旨在改善音响事件定位与检测中的距离估计问题。通过ResNet50提取音视频嵌入，性能显著提升，尽管F1分数有所下降，但未来实验仍有改进空间。

BriefGPT - AI 论文速递 ·

本文提出了一种新方法，将声音事件检测与定位拓展到包含距离估计的三维声音事件检测、定位。通过多任务和单任务两种方法研究了在不同背景下的实现方案，并探究了与距离估计相关的损失函数。实验结果表明，在不降低准确性的情况下，可以进行三维声音事件检测、定位。

BriefGPT - AI 论文速递 ·