文本到语音的神经传感器和发声器:基于语义标记预测的方法
原文中文,约400字,阅读约需1分钟。发表于: 。基于神经传导器的文本到语音 (TTS) 框架,通过使用从 wav2vec2.0 嵌入中获得的离散语义标记,易于采用神经传导器实现 TTS 框架,从而享受其单调对齐约束;该模型首先通过神经传导器生成对齐的语义标记,然后使用非自回归 (NAR) 语音生成器从语义标记合成语音样本,该分离框架减轻了 TTS 的训练复杂性,使得每个阶段能够分别专注于语言和对齐建模以及细粒度声学建模;在零样本自适应...
该文介绍了一种基于神经传导器的 TTS 框架,使用离散语义标记实现单调对齐约束,提高了语音质量和说话人相似度。同时,该模型展示了神经传导器在 TTS 中的潜力。