小红花·文摘

本研究提出了Sat2Sound，一个用于声景映射的多模态表示学习框架。该框架通过视觉-语言模型生成声景描述，并利用对比学习实现卫星图像与音频的跨模态检索，展示了新的声景合成应用，提供沉浸式声学体验。