小红花·文摘

本文探讨了自监督音频表示学习中的联合嵌入预测架构（JEPA），通过对音频频谱图进行上下文和目标分割，训练神经网络进行预测。研究表明，上下文选择对模型质量有显著影响，并提出了多种基于JEPA的框架（如A-JEPA、T-JEPA等），在音频分类和轨迹相似性计算中表现优异，展示了其在不同任务中的有效性和可扩展性。