本文改进了自我监督语音和音频分类模型SSAST,通过整合MAE的编码器-解码器结构,解决高掩码比率问题,加速预训练并降低内存使用。在下游任务中表现优于原模型,并评估了不同预训练策略,探讨视觉和音频领域的差异。
完成下面两步后,将自动完成登录并继续当前操作。