解码器专用变压器的离散令牌 ASR 无需损失遮蔽

该论文研究了在语音识别任务中，如何通过应用 KL 散度和平滑标签在输入的语音标记上，以有效地建模语音标记的自回归方式。实验证明，该方法缓解了交叉熵损失的局限性，并在基于解码器的 Transformer 的不同语音离散化方法中一致优于 Loss Masking。

该文章介绍了一种名为TokenSplit的语音分离模型，可在离散标记序列上操作。该模型通过输入掩码实现多任务训练，包括将每个语音源进行分离和转录，并从文本生成语音。作者还介绍了模型的“修正”版本，证明了该模型在分离方面具有优秀的性能，并提供了语音合成的音频样本来展示该模型的附加效用。

TokenSplit 多任务训练性能优秀解码器语音分离模型语音合成