学习三模态嵌入用于零样本声景映射

原文约300字,阅读约需1分钟。发表于:

我们的研究主要关注声音景观映射的任务,利用先进的模型对地理位置的语音、语音的文本描述以及其拍摄地的航拍图像进行编码,构建了三种模态的共享嵌入空间,从而可以根据文本或音频查询构建任何地理区域的声音景观地图。在 SoundingEarth 数据集上,我们的方法明显优于现有最先进方法,在图像到音频的召回率改善了从 0.256 提高到 0.450。我们的代码可在此链接中找到。

该研究利用先进模型对地理位置的语音、语音的文本描述以及其拍摄地的航拍图像进行编码,构建了三种模态的共享嵌入空间,从而可以根据文本或音频查询构建任何地理区域的声音景观地图。该方法在 SoundingEarth 数据集上明显优于现有最先进方法,在图像到音频的召回率改善了从 0.256 提高到 0.450。

相关推荐 去reddit讨论