BriefGPT - AI 论文速递 ·

SSL-TTS：利用自监督嵌入和kNN检索实现零-shot多说话人TTS

💡 原文中文，约1200字，阅读约需3分钟。

📝

内容提要

该研究探讨了多语言零样本语音合成技术，结合自监督学习和VITS模型，在低资源语种上取得了先进成果。提出的Mega-TTS系统实现了高质量的文本到语音生成，同时关注噪声鲁棒性和语音表示能力，推出了BASE TTS和XTTS系统，推动了语音合成技术的发展。

🎯

❓

Mega-TTS系统是一种高质量的文本到语音生成系统，训练了20k小时的语音数据，旨在实现零样本文本到语音的生成。

研究结合自监督学习和VITS模型，通过创新修改实现了在低资源语种上的零样本语音合成。

BASE TTS模型是迄今为止最大的TTS模型，使用100K小时的公共领域语音数据进行训练，取得了最佳的语音自然度效果。

XTTS系统基于Tortoise模型，通过改进声纹克隆和加快训练速度，实现了在16种语言中的先进结果。

研究提出了一种噪声鲁棒的零样本文本到语音方法，通过适配器融入自监督学习模型，并使用带噪声的参考语音进行微调。

自监督学习在语音合成中表现出强大的能力，特别是在细粒度音乐任务和语音表示方面，普遍优于当前最先进的模型。

🏷️