PSM:学习多尺度零样本声景映射的概率嵌入
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
研究者提出了一种基于位置引导的音频-视觉空间音频分离器(LAVSS),通过利用空间线索和位置表示来提高视听分离效果。
🎯
关键要点
- 现有的机器学习研究在单声道视听分离方面取得了进展,但大多数方法忽视了声源的位置。
- 在虚拟实境/增强实境场景中,用户需要区分不同方向上的相似音频源。
- 为了解决这一问题,研究者提出了一种基于位置引导的音频-视觉空间音频分离器(LAVSS)。
- LAVSS利用空间音频和视觉位置之间的相关性,结合双耳音频中的相位差作为空间线索。
- 该方法还使用发声对象的位置表示作为额外的模态指导,并采用多级跨模态注意力进行视觉-位置的协作。
- 通过预训练的单声道分离器,LAVSS从丰富的单声道音频中转移知识,以提高空间音频分离效果。
- 在FAIR-Play数据集上的实验结果表明,LAVSS在视听分离方面表现优越。
➡️