本文介绍了一种名为EZ-VSL的无监督音频-视觉源定位方法,旨在识别视频中的声源。该方法通过对齐音频和视觉信息,显著提高了定位精度,CIoU指标从76.80%提升至83.94%。研究还探讨了自监督学习、音频-视觉类别权重及新数据集,展示了在声源定位方面的优越性能。
完成下面两步后,将自动完成登录并继续当前操作。