本研究提出了一种通过可学习的二进制掩码从大型音频基础模型中提取轻量化子网络的方法。该方法在不改变基础模型权重的情况下,提升了音频表示任务的性能,并降低了训练成本,适用于实时应用和消费级设备。
本文介绍了一种将视觉模型应用于音频的方法,通过预测潜在空间中的音频表示。作者提出了一种自监督学习方法,通过编码音频频谱图块并预测采样区域的表示来实现。实验证明该方法在音频和语音分类任务上具有优越性能。
完成下面两步后,将自动完成登录并继续当前操作。