小红花·文摘

本文介绍了一种在移动设备上部署的自监督学习模型，用于学习通用音频表示。该模型利用时间上下文来估计音频片段之间的时间间隔，并重建时间频谱图切片。研究表明，该模型在多个下游任务中可重复使用，性能接近全监督模型。