学习三模态嵌入用于零样本声景映射

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究利用先进模型对地理位置的语音、语音的文本描述以及其拍摄地的航拍图像进行编码,构建了三种模态的共享嵌入空间,从而可以根据文本或音频查询构建任何地理区域的声音景观地图。该方法在 SoundingEarth 数据集上明显优于现有最先进方法,在图像到音频的召回率改善了从 0.256 提高到 0.450。

🎯

关键要点

  • 研究关注声音景观映射任务。
  • 利用先进模型对地理位置的语音、文本描述和航拍图像进行编码。
  • 构建三种模态的共享嵌入空间。
  • 可以根据文本或音频查询构建地理区域的声音景观地图。
  • 在 SoundingEarth 数据集上,方法优于现有最先进方法。
  • 图像到音频的召回率从 0.256 提高到 0.450。
  • 研究代码可在线获取。
➡️

继续阅读