小红花·文摘

该研究提出了一种基于小批量学习匹配框架的音频-文本检索方法，能够学习丰富、表达力强的联合嵌入空间，并在多个数据集上取得了最先进的性能。该方法还能够弥补音频和文本嵌入之间的模态差距，并在零样本声音事件检测任务中超越了其他方法。