该研究提出了一种基于小批量学习匹配框架的音频-文本检索方法,能够学习丰富、表达力强的联合嵌入空间,并在多个数据集上取得了最先进的性能。该方法还能够弥补音频和文本嵌入之间的模态差距,并在零样本声音事件检测任务中超越了其他方法。
完成下面两步后,将自动完成登录并继续当前操作。