估计音频-标题对应关系改善基于语言的音频检索
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
研究者提出了一种弱监督方法,利用CLAP模型的预训练和文本数据,实现自动音频字幕生成。通过重构文本和解码音频嵌入来训练和推断,无需配对目标数据。在Clotho和AudioCaps数据集上评估,相对于完全监督方法,性能达到83%。
🎯
关键要点
- 自动音频字幕生成(AAC)在成对音频和字幕的数据集研究中取得显著成功。
- 收集配对音频和字幕需要大量人力和时间。
- 研究者提出了一种弱监督方法,仅需文本数据和预训练的CLAP模型,减少对配对目标数据的需求。
- 该方法利用CLAP中音频和文本嵌入之间的相似性进行训练和推断。
- 训练过程中重构文本,推断过程中使用音频嵌入解码。
- 采用策略减小音频和文本嵌入之间的模态差距。
- 在Clotho和AudioCaps数据集上评估,性能达到83%,优于完全监督方法。
➡️