本研究提出了三个新的跨模态检索基准,旨在提升文本与音频之间的检索效果。通过预训练音频任务,建立了文本-音频和音频-文本检索的基线,并公开了数据集和代码。研究表明,采用新框架和方法显著提高了检索准确性,推动了音频检索领域的发展。
该研究使用自我训练框架证明了神经检索器可以自我进化并改进,无需外部模型。实验证明该方法在常见和领域外的检索基准上持续改进,并在各个领域的任务上产生额外收益。
完成下面两步后,将自动完成登录并继续当前操作。