本文介绍了一种名为SoundVista的新方法,通过视觉-声学绑定从新视角合成环境声音。该方法不依赖声源细节的先验知识,适应不同房间布局和麦克风配置,在多种环境中表现出显著改进。
我们提出了AutoCap和GenAu两种新模型来解决环境声音和效果生成问题。AutoCap利用音频元数据提高标题质量,GenAu通过使用新数据集训练改善音频质量。
完成下面两步后,将自动完成登录并继续当前操作。