利用混响和视觉深度线索进行声音事件定位和检测及距离估计
原文中文,约200字,阅读约需1分钟。发表于: 。本研究旨在解决音频和视频音响事件定位与检测中,传统模型在距离估计上存在的不足。研究提出了一种基于音视频融合的Conformer模型,通过使用ResNet50提取的音频与视频嵌入,显著提升了性能,并引入了新特征以改善距离估计,虽然F1分数有所降低,但在未来的实验中仍有潜力带来改进。
本研究提出了一种基于音视频融合的Conformer模型,旨在改善音响事件定位与检测中的距离估计问题。通过ResNet50提取音视频嵌入,性能显著提升,尽管F1分数有所下降,但未来实验仍有改进空间。