本研究提出了一种通过可学习的二进制掩码从大型音频基础模型中提取轻量化子网络的方法。该方法在不改变基础模型权重的情况下,提升了音频表示任务的性能,并降低了训练成本,适用于实时应用和消费级设备。
本研究探讨了音频表示和音乐自动标记的无监督学习方法,提出了多种模型和评估策略,强调可解释性的重要性。通过对比学习和深度向量量化,提升了音乐信息检索和音频质量感知的性能,并在不同数据集上展示了优越表现。
本文探讨了自监督音频表示学习中的联合嵌入预测架构(JEPA),通过对音频频谱图进行上下文和目标分割,训练神经网络进行预测。研究表明,上下文选择对模型质量有显著影响,并提出了多种基于JEPA的框架(如A-JEPA、T-JEPA等),在音频分类和轨迹相似性计算中表现优异,展示了其在不同任务中的有效性和可扩展性。
本文介绍了一种将视觉模型应用于音频的方法,通过预测潜在空间中的音频表示。作者提出了一种自监督学习方法,通过编码音频频谱图块并预测采样区域的表示来实现。实验证明该方法在音频和语音分类任务上具有优越性能。
完成下面两步后,将自动完成登录并继续当前操作。