用于自动语音识别的卷积变分自编码器在声谱图压缩中的应用

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文改进了自我监督语音和音频分类模型SSAST,通过整合MAE的编码器-解码器结构,解决高掩码比率问题,加速预训练并降低内存使用。在下游任务中表现优于原模型,并评估了不同预训练策略,探讨视觉和音频领域的差异。

🎯

关键要点

  • 本文提出了一种改进的自我监督语音和音频分类模型SSAST的方法。
  • 通过整合MAE的编码器-解码器结构,解决了高掩码比率(75%)的问题。
  • MAE预训练在常规模型和输入尺寸下提供了3倍的加速和2倍的内存使用率降低。
  • 在下游任务的微调中,改进的方法表现优于原SSAST模型。
  • 对不同预训练策略进行了全面评估,探讨了视觉和音频领域的差异。
➡️

继续阅读