本研究提出了一种基于双流网络的无监督算法,用于在视觉场景中定位声源,并通过半监督学习修正误差,增强算法的可靠性。研究还介绍了神经声学场(NAFs)和SoundSpaces 2.0平台,以提高声源定位和音频-视觉分离的效果。实验结果表明,该方法在性能上优于现有技术。
本文介绍了一种通过音频信号和身体姿势生成三维声场的技术,支持个性化空间音频渲染。研究开发了多个数据集和模型,利用深度学习方法提升音频视觉导航效果,并提出了神经声学场(NAFs)以改善声音传播建模。
完成下面两步后,将自动完成登录并继续当前操作。