本文探讨了结合盲音频录音与3D场景信息进行新视角声学合成的优势。通过2-4个麦克风的录音和场景的3D几何及材料信息,估计场景中的声音。主要挑战包括声源定位、分离和去混响。研究表明,利用3D重建的房间脉冲响应(RIR)显著提高合成质量。模型在Matterport3D-NVAS数据集上表现优异,声源定位准确率接近完美,声源分离和去混响的PSNR和SDR指标优于现有方法。
本研究探讨了结合盲音频录音和3D场景信息对新视角声学合成的益处。通过音频录音和包含多个未知声源的场景的3D几何学和材料,估计场景中的任何声音。通过融入从3D重建房间导出的房间脉冲响应(RIRs),我们的方法在源定位、分离和去混响方面优于现有方法。在模拟研究中,我们的模型在源定位方面实现了接近完美的准确性,从而在新视角声学合成方面获得了高质量的结果。
该研究探讨了结合盲音频录音和3D场景信息对新视角声学合成的益处。通过音频录音和包含多个未知声源的场景的3D几何学和材料,估计场景中的任何声音。研究证明了融入从3D重建房间导出的房间脉冲响应(RIRs)可以统一解决声源定位、分离和去混响等任务。在模拟研究中,该方法在源定位、分离和去混响方面取得了较好的结果。
完成下面两步后,将自动完成登录并继续当前操作。