语音处理的线性复杂度自监督学习
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文研究了一种线性复杂度的自监督学习(SSL)上下文编码器,通过改进 SummaryMixing 模型,在 MP3S 基准测试的下游任务中达到更好或相等的性能,同时减少了预训练时间和峰值 VRAM,使得 155M wav2vec 2.0 模型的预训练在一周内完成。
🎯
关键要点
-
研究了一种线性复杂度的自监督学习(SSL)上下文编码器。
-
改进了 SummaryMixing 模型。
-
在 MP3S 基准测试的下游任务中达到更好或相等的性能。
-
预训练时间减少了 18%。
-
峰值 VRAM 减少了 23%。
-
155M wav2vec 2.0 模型的预训练在一周内完成,使用 4 个 Tesla A100 GPU。
➡️