本文研究了自监督通用音频表示学习的问题,使用联合嵌入预测架构(JEPA)进行实验评估,发现输入数据的哪部分被用作上下文或目标会显著影响模型的质量。同时也强调了音频和图像之间的重要差异。
完成下面两步后,将自动完成登录并继续当前操作。