本文提出了一种改进方法,用于自我监督语音及音频分类中的SSAST模型。通过集成MAE的编码器-解码器结构,提高了预训练速度和内存使用率,并在下游任务中表现更优。同时,评估了预训练策略,并探讨了MAE风格预训练在视觉和音频领域的不同之处。
本文介绍了一种使用深度卷积神经网络作为结构变分近似的推理网络的无监督模型ConvDMM,它使用非线性发射和转移函数模型的高斯状态空间模型。ConvDMM在语音分类和识别方面表现优异,可以与其他自我监督的方法相辅相成,特别适用于少量标记训练示例的极低资源情况。
完成下面两步后,将自动完成登录并继续当前操作。