本研究提出CLASP(对比语言-语音预训练),旨在解决音频-文本信息检索中的多语言多模态表示问题。该方法结合语音和文本数据,构建了15个类别的数据集,设立了新基准,显示出优于传统语音识别方法的潜力。
完成下面两步后,将自动完成登录并继续当前操作。