小红花·文摘

该文介绍了一种弱监督方法来训练自动音频字幕生成（AAC）模型，只需要文本数据和经过预训练的对比语言音频预训练（CLAP）模型，从而减轻了对配对目标数据的需求。该方法利用 CLAP 中音频和文本嵌入之间的相似性，通过桥接差距的策略减小音频和文本嵌入之间的模态差距。在 Clotho 和 AudioCaps 数据集上评估，相对于使用配对目标数据训练的完全监督方法，该方法可达到高达 83% 的性能水平。