SOAF: 场景遮挡感知的神经声场
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
本研究探讨了结合盲音频录音和3D场景信息对新视角声学合成的益处。通过音频录音和包含多个未知声源的场景的3D几何学和材料,估计场景中的任何声音。通过融入从3D重建房间导出的房间脉冲响应(RIRs),我们的方法在源定位、分离和去混响方面优于现有方法。在模拟研究中,我们的模型在源定位方面实现了接近完美的准确性,从而在新视角声学合成方面获得了高质量的结果。
🎯
关键要点
-
本研究探讨结合盲音频录音和3D场景信息对新视角声学合成的益处。
-
通过2-4个麦克风的音频录音和3D几何学,估计场景中的声音。
-
新视角声学合成的主要挑战包括声源定位、分离和去混响。
-
融入从3D重建房间导出的房间脉冲响应(RIRs)能提高网络的性能。
-
我们的方法在源定位、分离和去混响方面优于现有方法。
-
在Matterport3D-NVAS数据集上的模拟研究中,模型在源定位方面接近完美准确性。
-
源分离和去混响的PSNR为26.44 dB,SDR为14.23 dB。
-
新视角声学合成的结果为PSNR 25.55 dB,SDR 14.20 dB。
-
项目网页提供代码、预训练模型和视频结果。
➡️