EnCLAP:基于神经音频编解码器和音频文本联合嵌入的自动音频字幕生成

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

研究者提出了一种弱监督方法,利用音频和文本嵌入之间的相似性,通过重构文本和解码音频嵌入来训练模型,减轻了对配对目标数据的需求。实验证明,该方法在两个数据集上的性能达到了83%。

🎯

关键要点

  • 自动音频字幕生成(AAC)在研究中取得显著成功,但需要大量配对音频和字幕数据。
  • 提出了一种弱监督方法,仅需文本数据和预训练的CLAP模型,减轻对配对目标数据的需求。
  • 该方法利用CLAP中音频和文本嵌入之间的相似性进行训练。
  • 训练过程中重构文本,推断过程中使用音频嵌入解码。
  • 采用策略减小音频和文本嵌入之间的模态差距。
  • 在Clotho和AudioCaps数据集上评估,性能可达83%。
➡️

继续阅读