小红花·文摘

本文研究了自监督通用音频表示学习的问题，使用联合嵌入预测架构（JEPA）进行实验评估，发现输入数据的哪部分被用作上下文或目标会显著影响模型的质量。同时也强调了音频和图像之间的重要差异。