EnCLAP:基于神经音频编解码器和音频文本联合嵌入的自动音频字幕生成
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了一种自动音频字幕的新框架 EnCLAP,使用了两个声学表示模型 EnCodec 和 CLAP 以及一个预训练语言模型 BART。我们还引入了一种称为 masked codec modeling 的新训练目标,提高了预训练语言模型的声学感知能力。在 AudioCaps 和 Clotho 上的实验结果表明,我们的模型超过了基准模型的性能。我们将在此网址上提供源代码。在线演示可在此网址上获得。
研究者提出了一种弱监督方法,利用音频和文本嵌入之间的相似性,通过重构文本和解码音频嵌入来训练模型,减轻了对配对目标数据的需求。实验证明,该方法在两个数据集上的性能达到了83%。