小红花·文摘

该研究利用先进模型对地理位置的语音、语音的文本描述以及其拍摄地的航拍图像进行编码，构建了三种模态的共享嵌入空间，从而可以根据文本或音频查询构建任何地理区域的声音景观地图。该方法在 SoundingEarth 数据集上明显优于现有最先进方法，在图像到音频的召回率改善了从 0.256 提高到 0.450。