无监督音频 - 视觉预训练的速度辅助
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究提出了一种新的速度协同增强方法,通过随机改变音视频数据的播放速度,增加了音视频配对的多样性,使负配对数量翻倍,从而显著增强了学习到的表征。同时,该方法改变了音视频配对之间的严格相关性,引入了增强配对之间的部分关系,由提出的SoftInfoNCE损失来建模,进一步提升了性能。实验结果表明,该方法显著改善了学习到的表征。
🎯
关键要点
- 本研究提出了一种新的速度协同增强方法。
- 该方法通过随机改变音视频数据的播放速度,增加了音视频配对的多样性。
- 负配对数量翻倍,从而显著增强了学习到的表征。
- 方法改变了音视频配对之间的严格相关性,引入了增强配对之间的部分关系。
- 提出的SoftInfoNCE损失用于建模这些部分关系,进一步提升了性能。
- 实验结果表明,该方法显著改善了学习到的表征。
🏷️
标签
➡️