LASER:通过自我监督学习对齐语音表示以改进内容相关任务
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文介绍了WavLM预训练模型,利用Transformer结构的相对位置偏置来捕捉输入语音的顺序,提高了对非ASR语音任务的潜力,并在SUPERB基准测试上取得了最先进的性能。
🎯
关键要点
- 提出了一种新的预训练模型 WavLM。
- WavLM 通过联合学习掩蔽语音预测和去噪来提高性能。
- 利用 Transformer 结构的门控相对位置偏置捕捉输入语音的顺序。
- WavLM 具备掩蔽语音预测的语音内容建模能力。
- 提高了对非 ASR 语音任务的潜力。
- 在 SUPERB 基准测试上取得了最先进的性能。
- 为各种语音处理任务带来了显著的改进。
🏷️
标签
➡️