小红花·文摘

本文介绍了一种新方法，利用合成音频数据进行预训练，解决隐私和许可问题。结合掩码自编码器（MAE），无需真实数据即可学习特征。实验表明，该方法在多个音频任务中表现优异，与AudioSet-2M预训练模型相当，甚至在某些情况下超越基于图像的预训练方法。