本研究提出了一种基于多模态深度强化学习的音频视觉导航方法,利用音频和视觉数据在三维环境中进行导航。通过动态设置航点和声音记忆,揭示未映射空间的几何结构,实验表明音频在导航中至关重要。此外,研究探讨了主动声学采样和模拟到真实的转换策略,展示了在真实环境中成功导航的潜力。
本文介绍了一种通过音频信号和身体姿势生成三维声场的技术,支持个性化空间音频渲染。研究开发了多个数据集和模型,利用深度学习方法提升音频视觉导航效果,并提出了神经声学场(NAFs)以改善声音传播建模。
完成下面两步后,将自动完成登录并继续当前操作。