该研究利用先进模型对地理位置的语音、语音的文本描述以及其拍摄地的航拍图像进行编码,构建了三种模态的共享嵌入空间,从而可以根据文本或音频查询构建任何地理区域的声音景观地图。该方法在 SoundingEarth 数据集上明显优于现有最先进方法,在图像到音频的召回率改善了从 0.256 提高到 0.450。
完成下面两步后,将自动完成登录并继续当前操作。