小红花·文摘

本文介绍了一种在移动设备上部署的自监督学习模型，用于学习通用音频表示。该模型利用频谱图域中的时间上下文，通过估计音频片段之间的时间间隔或重建时间频谱图切片来学习。研究表明，这种模型可以在多个下游任务中重复使用，并且与全监督模型的性能接近。