音频差异学习用于音频字幕
原文中文,约300字,阅读约需1分钟。发表于: 。该研究介绍了一种新颖的训练范式,音频差异学习,用于改进音频字幕生成。该方法通过创建一个保留音频关系的特征表示空间,能够生成详细描绘复杂音频信息的字幕。实验证明,该方法在 Clotho 和 ESC50 数据集上,相较传统方法,SPIDEr 分数提高了 7%。
本文介绍了一种使用编码器-解码器架构的音频标题系统,并利用转移学习缓解数据稀缺性问题。通过强化学习将评估指标纳入模型优化中,解决了“曝光偏差”和评估指标与损失函数不匹配的问题。该方法在DCASE 2021 Task 6中排名第三,并进行了消融研究。