EAT:高效音频 Transformer 的自监督预训练

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文提出了一种改进方法,针对自我监督语音及音频分类中的SSAST模型。通过改进高掩模比率和集成MAE编码器-解码器结构到SSAST中,实现了3倍的加速和2倍的内存使用率降低。在下游任务的微调中,该方法表现更优。对预训练策略进行了评估,并探讨了MAE风格预训练的不同之处。

🎯

关键要点

  • 提出了一种针对自我监督语音及音频分类中SSAST模型的改进方法。
  • 改进了高掩模比率(75%)的问题。
  • 将MAE编码器-解码器结构集成到SSAST中。
  • MAE预训练提供3倍的加速和2倍的内存使用率降低。
  • 在下游任务的微调中,该方法表现优于SSAST。
  • 对预训练策略进行了全面评估,探讨了MAE风格预训练的不同之处。
🏷️

标签

➡️

继续阅读