语音处理的线性复杂度自监督学习
原文中文,约300字,阅读约需1分钟。发表于: 。本文研究了一种线性复杂度的自监督学习(SSL)上下文编码器,通过改进 SummaryMixing 模型,在 MP3S 基准测试的下游任务中达到更好或相等的性能,将 wav2vec 2.0 模型的预训练时间和峰值 VRAM 分别减少了 18% 和 23%,使得 155M wav2vec 2.0 模型的预训练在一周内由 4 个 Tesla A100 GPU 完成。
本文研究了一种线性复杂度的自监督学习(SSL)上下文编码器,通过改进 SummaryMixing 模型,在 MP3S 基准测试的下游任务中达到更好或相等的性能,同时减少了预训练时间和峰值 VRAM,使得 155M wav2vec 2.0 模型的预训练在一周内完成。