本文探讨了结合盲音频录音与3D场景信息进行新视角声学合成的优势。通过2-4个麦克风的录音和场景的3D几何及材料信息,估计场景中的声音。主要挑战包括声源定位、分离和去混响。研究表明,利用3D重建的房间脉冲响应(RIR)显著提高合成质量。模型在Matterport3D-NVAS数据集上表现优异,声源定位准确率接近完美,声源分离和去混响的PSNR和SDR指标优于现有方法。
本文提出了一种基于3D高斯扩散的新视角合成方法,结合可微渲染框架和空间注意力模块,提升了渲染质量和速度。通过音频与3D场景信息结合,解决了声源定位和分离问题,取得了优异的声学合成效果。此外,FSGS方法实现了实时高质量视角合成,MVSGaussian方法有效重建未见场景,展现出良好的综合性能。
完成下面两步后,将自动完成登录并继续当前操作。