小红花·文摘

本文介绍了一种名为EZ-VSL的无监督音频-视觉源定位方法，旨在识别视频中的声源。该方法通过对齐音频和视觉信息，显著提高了定位精度，CIoU指标从76.80%提升至83.94%。研究还探讨了自监督学习、音频-视觉类别权重及新数据集，展示了在声源定位方面的优越性能。