小红花·文摘

本研究提出了一种基于音视频融合的Conformer模型，旨在改善音响事件定位与检测中的距离估计问题。通过ResNet50提取音视频嵌入，性能显著提升，尽管F1分数有所下降，但未来实验仍有改进空间。