SOAF: 场景遮挡感知的神经声场

该论文解决了在室内场景中沿任意轨迹的新视觉音频综合问题，提出了一种考虑房间几何特性和墙壁遮挡对声音传播的影响的新方法，通过从输入视频中学习场景透射率并使用距离感知的参数化声音传播建模生成准确声音，并使用基于斐波那契球的局部声学场特征提取和定向感知的注意机制生成新视角的双耳音频，通过在真实数据集和合成数据集上的广泛实验证明了该方法在音频生成方面的优越性。

本研究探讨了结合盲音频录音和3D场景信息对新视角声学合成的益处。通过音频录音和包含多个未知声源的场景的3D几何学和材料，估计场景中的任何声音。通过融入从3D重建房间导出的房间脉冲响应（RIRs），我们的方法在源定位、分离和去混响方面优于现有方法。在模拟研究中，我们的模型在源定位方面实现了接近完美的准确性，从而在新视角声学合成方面获得了高质量的结果。

3D场景信息去混响新视角声学合成源定位盲音频录音