语音标记器评估基准(STAB)
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
我们提出了TokenSplit,一种在离散标记序列上操作的语音分离模型。该模型通过输入掩码实现多任务训练,包括将每个语音源进行分离和转录,并从文本生成语音。我们还介绍了模型的“修正”版本,该版本通过传统分离模型分离的音频标记预测增强音频标记。通过客观度量和主观MUSHRA听测,我们证明了我们的模型在分离方面具有优秀的性能,无论是否有转录条件。我们还测量了自动语音识别(ASR)性能,并提供了语音合成的音频样本来展示我们模型的附加效用。
🎯
关键要点
-
提出了TokenSplit,一种在离散标记序列上操作的语音分离模型。
-
模型通过输入掩码实现多任务训练,包括语音源分离、转录和从文本生成语音。
-
介绍了模型的“修正”版本,通过传统分离模型增强音频标记。
-
通过客观度量和主观MUSHRA听测证明模型在分离方面的优秀性能。
-
测量了自动语音识别(ASR)性能,并提供语音合成的音频样本展示模型的附加效用。
🏷️
标签
➡️