研究者提出了一种弱监督方法,利用音频和文本嵌入之间的相似性,通过重构文本和解码音频嵌入来训练模型,减轻了对配对目标数据的需求。实验证明,该方法在两个数据集上的性能达到了83%。
完成下面两步后,将自动完成登录并继续当前操作。