解码器专用变压器的离散令牌 ASR 无需损失遮蔽

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该文章介绍了一种名为TokenSplit的语音分离模型,可在离散标记序列上操作。该模型通过输入掩码实现多任务训练,包括将每个语音源进行分离和转录,并从文本生成语音。作者还介绍了模型的“修正”版本,证明了该模型在分离方面具有优秀的性能,并提供了语音合成的音频样本来展示该模型的附加效用。

🎯

关键要点

  • 提出了一种名为TokenSplit的语音分离模型,能够在离散标记序列上操作。
  • 模型通过输入掩码实现多任务训练,包括语音源的分离、转录和从文本生成语音。
  • 介绍了模型的修正版本,通过传统分离模型增强音频标记的预测。
  • 通过客观度量和主观MUSHRA听测,证明了模型在分离性能方面的优秀表现。
  • 测量了自动语音识别(ASR)性能,并提供了语音合成的音频样本以展示模型的附加效用。
➡️

继续阅读