BriefGPT - AI 论文速递 ·

呈现：零样本文本到韵律的控制

💡 原文中文，约1100字，阅读约需3分钟。

📝

内容提要

本文介绍了一种神经文本转语音系统，利用变分自动编码器实现韵律特征转移，解决文本缺失问题。研究涵盖音频特征训练、语调生成、语音克隆及多语言合成等技术，提升合成语音的自然度和表现力，并在低资源语言中实现高质量语音生成。

🎯

❓

该系统通过变分自动编码器实现韵律特征转移，解决文本缺失问题，生成自然的合成语音。

通过使用上下文信息和BERT嵌入的文本表征，可以显著提高合成语音的自然度和表现力。

采用utterance级别的规范化和发音人嵌入，成功提取韵律特征，实现音频发音人与其语调的克隆。

无监督的韵律聚类过程将音素级F0和时长特征离散化为韵律标签的输入序列，能够合成高质量语音。

通过只使用目标语言文本数据的方法，成功为低资源语言开发多语言语音合成系统，拓展了TTS的覆盖范围。

闪电语音系统具有高音质、高相似性，并且推理时间显著减少，提升了语音处理的多样性。

🏷️