本文探讨了自监督音频表示学习中的联合嵌入预测架构(JEPA),通过对音频频谱图进行上下文和目标分割,训练神经网络进行预测。研究表明,上下文选择对模型质量有显著影响,并提出了多种基于JEPA的框架(如A-JEPA、T-JEPA等),在音频分类和轨迹相似性计算中表现优异,展示了其在不同任务中的有效性和可扩展性。
完成下面两步后,将自动完成登录并继续当前操作。