小红花·文摘

本文研究了自监督通用音频表示学习的问题，使用联合嵌入预测架构（JEPA）进行实验评估，并探讨了设计选择对模型质量的影响。实验证明输入数据的不同部分对模型性能有显著影响，凸显了音频和图像之间的重要差异。