基于超声回声的室内场景深度图估计

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究探讨了结合盲音频录音和3D场景信息对新视角声学合成的益处。通过音频录音和包含多个未知声源的3D场景,可以估计场景中的任何声音。通过融入从3D重建房间导出的房间脉冲响应(RIRs),可以解决声源定位、分离和去混响的挑战。模拟研究表明,该方法在源定位、分离和去混响方面取得了良好的结果。

🎯

关键要点

  • 本研究探讨结合盲音频录音和3D场景信息对新视角声学合成的益处。
  • 通过2-4个麦克风的音频录音和3D场景的几何学和材料,可以估计场景中的任何声音。
  • 新视角声学合成的主要挑战包括声源定位、分离和去混响。
  • 融入从3D重建房间导出的房间脉冲响应(RIRs)可以有效解决这些挑战。
  • 该方法在源定位、分离和去混响方面优于现有方法,证明了其在利用3D视觉信息方面的有效性。
  • 在Matterport3D-NVAS数据集上的模拟研究中,模型在源定位方面实现了接近完美的准确性。
  • 源分离和去混响的PSNR为26.44 dB,SDR为14.23 dB。
  • 新视角声学合成的PSNR为25.55 dB,SDR为14.20 dB。
  • 项目网页提供了代码、预训练模型和视频结果。
➡️

继续阅读