估计音频-标题对应关系改善基于语言的音频检索

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

研究者提出了一种弱监督方法,利用CLAP模型的预训练和文本数据,实现自动音频字幕生成。通过重构文本和解码音频嵌入来训练和推断,无需配对目标数据。在Clotho和AudioCaps数据集上评估,相对于完全监督方法,性能达到83%。

🎯

关键要点

  • 自动音频字幕生成(AAC)在成对音频和字幕的数据集研究中取得显著成功。
  • 收集配对音频和字幕需要大量人力和时间。
  • 研究者提出了一种弱监督方法,仅需文本数据和预训练的CLAP模型,减少对配对目标数据的需求。
  • 该方法利用CLAP中音频和文本嵌入之间的相似性进行训练和推断。
  • 训练过程中重构文本,推断过程中使用音频嵌入解码。
  • 采用策略减小音频和文本嵌入之间的模态差距。
  • 在Clotho和AudioCaps数据集上评估,性能达到83%,优于完全监督方法。
➡️

继续阅读