研究者提出了一种弱监督方法,利用CLAP模型的预训练和文本数据,实现自动音频字幕生成。通过重构文本和解码音频嵌入来训练和推断,无需配对目标数据。在Clotho和AudioCaps数据集上评估,相对于完全监督方法,性能达到83%。
该文介绍了一种弱监督方法来训练自动音频字幕生成(AAC)模型,只需要文本数据和经过预训练的对比语言音频预训练(CLAP)模型,从而减轻了对配对目标数据的需求。该方法利用 CLAP 中音频和文本嵌入之间的相似性,通过桥接差距的策略减小音频和文本嵌入之间的模态差距。在 Clotho 和 AudioCaps 数据集上评估,相对于使用配对目标数据训练的完全监督方法,该方法可达到高达 83% 的性能水平。
完成下面两步后,将自动完成登录并继续当前操作。