EH-MAM:用于自我监督语音表征学习的易到难的掩蔽声学建模
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
研究提出了一种名为Masked Audio Text Encoder (MATE)的多模态语言模型再评分方法,通过对比学习将声学表征融入MLM输入空间。即使在没有目标领域数据的情况下,MATE在ASR系统中表现出域泛化优势。在不同数据集上,MATE将词错误率降低了4%-16%,即使训练数据仅为0.8小时,也比基线系统降低8%-23%。
🎯
关键要点
- 研究提出了一种名为Masked Audio Text Encoder (MATE)的多模态语言模型再评分方法。
- MATE通过对比学习将声学表征融入MLM输入空间,有效对齐模态。
- 在没有目标领域数据的情况下,MATE对ASR系统具有域泛化的优势。
- MATE在不同数据集上将词错误率降低了4%-16%。
- 即使训练数据仅为0.8小时,MATE也比基线系统降低了8%-23%的词错误率。
➡️