本文介绍了一种在移动设备上部署的自监督学习模型,用于学习通用音频表示。该模型利用频谱图域中的时间上下文,通过估计音频片段之间的时间间隔或重建时间频谱图切片来学习。研究表明,这种模型可以在多个下游任务中重复使用,并且与全监督模型的性能接近。
完成下面两步后,将自动完成登录并继续当前操作。