小红花·文摘

本文改进了自我监督语音和音频分类模型SSAST，通过整合MAE的编码器-解码器结构，解决高掩码比率问题，加速预训练并降低内存使用。在下游任务中表现优于原模型，并评估了不同预训练策略，探讨视觉和音频领域的差异。