基于文本 - only 训练实现的弱监督自动音频字幕生成
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
该文介绍了一种弱监督方法来训练自动音频字幕生成(AAC)模型,只需要文本数据和经过预训练的对比语言音频预训练(CLAP)模型,从而减轻了对配对目标数据的需求。该方法利用 CLAP 中音频和文本嵌入之间的相似性,通过桥接差距的策略减小音频和文本嵌入之间的模态差距。在 Clotho 和 AudioCaps 数据集上评估,相对于使用配对目标数据训练的完全监督方法,该方法可达到高达 83% 的性能水平。
🎯
关键要点
-
该文介绍了一种弱监督方法来训练自动音频字幕生成(AAC)模型。
-
该方法只需要文本数据和经过预训练的对比语言音频预训练(CLAP)模型。
-
此方法减轻了对配对目标数据的需求。
-
利用 CLAP 中音频和文本嵌入之间的相似性来进行训练。
-
在训练过程中,从 CLAP 文本嵌入中重构文本,推断过程中使用音频嵌入解码。
-
采用桥接差距的策略来减小音频和文本嵌入之间的模态差距。
-
在 Clotho 和 AudioCaps 数据集上评估,方法可达到高达 83% 的性能水平。
➡️