学习三模态嵌入用于零样本声景映射
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究利用先进模型对地理位置的语音、语音的文本描述以及其拍摄地的航拍图像进行编码,构建了三种模态的共享嵌入空间,从而可以根据文本或音频查询构建任何地理区域的声音景观地图。该方法在 SoundingEarth 数据集上明显优于现有最先进方法,在图像到音频的召回率改善了从 0.256 提高到 0.450。
🎯
关键要点
- 研究关注声音景观映射任务。
- 利用先进模型对地理位置的语音、文本描述和航拍图像进行编码。
- 构建三种模态的共享嵌入空间。
- 可以根据文本或音频查询构建地理区域的声音景观地图。
- 在 SoundingEarth 数据集上,方法优于现有最先进方法。
- 图像到音频的召回率从 0.256 提高到 0.450。
- 研究代码可在线获取。
➡️