EnCLAP:基于神经音频编解码器和音频文本联合嵌入的自动音频字幕生成
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
研究者提出了一种弱监督方法,利用音频和文本嵌入之间的相似性,通过重构文本和解码音频嵌入来训练模型,减轻了对配对目标数据的需求。实验证明,该方法在两个数据集上的性能达到了83%。
🎯
关键要点
- 自动音频字幕生成(AAC)在研究中取得显著成功,但需要大量配对音频和字幕数据。
- 提出了一种弱监督方法,仅需文本数据和预训练的CLAP模型,减轻对配对目标数据的需求。
- 该方法利用CLAP中音频和文本嵌入之间的相似性进行训练。
- 训练过程中重构文本,推断过程中使用音频嵌入解码。
- 采用策略减小音频和文本嵌入之间的模态差距。
- 在Clotho和AudioCaps数据集上评估,性能可达83%。
➡️