小红花·文摘

研究者提出了一种弱监督方法，利用音频和文本嵌入之间的相似性，通过重构文本和解码音频嵌入来训练模型，减轻了对配对目标数据的需求。实验证明，该方法在两个数据集上的性能达到了83%。