语音处理的线性复杂度自监督学习

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文研究了一种线性复杂度的自监督学习(SSL)上下文编码器,通过改进 SummaryMixing 模型,在 MP3S 基准测试的下游任务中达到更好或相等的性能,同时减少了预训练时间和峰值 VRAM,使得 155M wav2vec 2.0 模型的预训练在一周内完成。

🎯

关键要点

  • 研究了一种线性复杂度的自监督学习(SSL)上下文编码器。

  • 改进了 SummaryMixing 模型。

  • 在 MP3S 基准测试的下游任务中达到更好或相等的性能。

  • 预训练时间减少了 18%。

  • 峰值 VRAM 减少了 23%。

  • 155M wav2vec 2.0 模型的预训练在一周内完成,使用 4 个 Tesla A100 GPU。

➡️

继续阅读