本研究提出了三个新的跨模态检索基准,旨在提升文本与音频之间的检索效果。通过预训练音频任务,建立了文本-音频和音频-文本检索的基线,并公开了数据集和代码。研究表明,采用新框架和方法显著提高了检索准确性,推动了音频检索领域的发展。
完成下面两步后,将自动完成登录并继续当前操作。