该文介绍了一个跨模态对齐任务,以促进音频和视觉模态之间的交互学习,实现了声源定位和跨模态检索的高性能和语义理解。
提出了一个跨模态对齐任务,旨在促进音频和视觉模态之间的交互学习。
该任务作为声源定位的联合任务,旨在提高声源定位的性能。
在声源定位和跨模态检索方面超越了现有的方法。
实现了较高的定位性能和强大的跨模态语义理解。
完成下面两步后,将自动完成登录并继续当前操作。