EH-MAM:用于自我监督语音表征学习的易到难的掩蔽声学建模

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

研究提出了一种名为Masked Audio Text Encoder (MATE)的多模态语言模型再评分方法,通过对比学习将声学表征融入MLM输入空间。即使在没有目标领域数据的情况下,MATE在ASR系统中表现出域泛化优势。在不同数据集上,MATE将词错误率降低了4%-16%,即使训练数据仅为0.8小时,也比基线系统降低8%-23%。

🎯

关键要点

  • 研究提出了一种名为Masked Audio Text Encoder (MATE)的多模态语言模型再评分方法。
  • MATE通过对比学习将声学表征融入MLM输入空间,有效对齐模态。
  • 在没有目标领域数据的情况下,MATE对ASR系统具有域泛化的优势。
  • MATE在不同数据集上将词错误率降低了4%-16%。
  • 即使训练数据仅为0.8小时,MATE也比基线系统降低了8%-23%的词错误率。
➡️

继续阅读