本研究提出了Sat2Sound,一个用于声景映射的多模态表示学习框架。该框架通过视觉-语言模型生成声景描述,并利用对比学习实现卫星图像与音频的跨模态检索,展示了新的声景合成应用,提供沉浸式声学体验。
完成下面两步后,将自动完成登录并继续当前操作。