本研究提出了一种新的速度协同增强方法,通过随机改变音视频数据的播放速度,增加了音视频配对的多样性,使负配对数量翻倍,从而显著增强了学习到的表征。同时,该方法改变了音视频配对之间的严格相关性,引入了增强配对之间的部分关系,由提出的SoftInfoNCE损失来建模,进一步提升了性能。实验结果表明,该方法显著改善了学习到的表征。
完成下面两步后,将自动完成登录并继续当前操作。