基于文本 - only 训练实现的弱监督自动音频字幕生成

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

该文介绍了一种弱监督方法来训练自动音频字幕生成(AAC)模型,只需要文本数据和经过预训练的对比语言音频预训练(CLAP)模型,从而减轻了对配对目标数据的需求。该方法利用 CLAP 中音频和文本嵌入之间的相似性,通过桥接差距的策略减小音频和文本嵌入之间的模态差距。在 Clotho 和 AudioCaps 数据集上评估,相对于使用配对目标数据训练的完全监督方法,该方法可达到高达 83% 的性能水平。

🎯

关键要点

  • 该文介绍了一种弱监督方法来训练自动音频字幕生成(AAC)模型。

  • 该方法只需要文本数据和经过预训练的对比语言音频预训练(CLAP)模型。

  • 此方法减轻了对配对目标数据的需求。

  • 利用 CLAP 中音频和文本嵌入之间的相似性来进行训练。

  • 在训练过程中,从 CLAP 文本嵌入中重构文本,推断过程中使用音频嵌入解码。

  • 采用桥接差距的策略来减小音频和文本嵌入之间的模态差距。

  • 在 Clotho 和 AudioCaps 数据集上评估,方法可达到高达 83% 的性能水平。

➡️

继续阅读