本文研究了自监督通用音频表示学习的问题,使用联合嵌入预测架构(JEPA),通过分割mel频谱图为上下文和目标两部分,训练神经网络从上下文表示中预测目标表示。研究发现图像领域的设计选择会导致音频上的性能下降,凸显了两种模态之间的重要差异。
完成下面两步后,将自动完成登录并继续当前操作。