本研究提出了一种新方案,针对多语音音频文本检索中的不一致性问题,通过1-to-k对比学习和音频-英语共同锚对比学习,减轻数据分布错误的影响。实验结果表明,该方案在多种语言上表现优异。
该研究提出了一种基于小批量学习匹配框架的音频-文本检索方法,能够学习丰富、表达力强的联合嵌入空间,并在多个数据集上取得了最先进的性能。该方法还能够弥补音频和文本嵌入之间的模态差距,并在零样本声音事件检测任务中超越了其他方法。
完成下面两步后,将自动完成登录并继续当前操作。