EAT:高效音频 Transformer 的自监督预训练
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文提出了一种改进方法,针对自我监督语音及音频分类中的SSAST模型。通过改进高掩模比率和集成MAE编码器-解码器结构到SSAST中,实现了3倍的加速和2倍的内存使用率降低。在下游任务的微调中,该方法表现更优。对预训练策略进行了评估,并探讨了MAE风格预训练的不同之处。
🎯
关键要点
- 提出了一种针对自我监督语音及音频分类中SSAST模型的改进方法。
- 改进了高掩模比率(75%)的问题。
- 将MAE编码器-解码器结构集成到SSAST中。
- MAE预训练提供3倍的加速和2倍的内存使用率降低。
- 在下游任务的微调中,该方法表现优于SSAST。
- 对预训练策略进行了全面评估,探讨了MAE风格预训练的不同之处。
🏷️
标签
➡️