小红花·文摘

该研究提出了一种音频-视觉空间整合网络，利用音频和视觉模态的空间线索来模仿人类在检测声音对象时的行为。通过递归注意网络，可以形成更准确的注意区域。实验结果显示该方法在声源定位方面优于现有方法。