本研究提出CLASP(对比语言-语音预训练),旨在解决音频-文本信息检索中的多语言多模态表示问题。该方法结合语音和文本数据,构建了15个类别的数据集,设立了新基准,显示出优于传统语音识别方法的潜力。
本文提出了一种名为'CLaSP'的模型,通过自然语言查询信号特征来搜索时间序列信号。该模型利用对比学习的神经网络,克服了时间序列信号特征表示的挑战,实验表明CLaSP能准确识别信号变化点,实现有效的自然语言搜索。
完成下面两步后,将自动完成登录并继续当前操作。