BriefGPT - AI 论文速递 ·

鲁棒零样本文本转语音合成与逆向推导优化

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本研究提出了一种名为不确定性感知优化（UNO）的方法，将主观人类评估整合到文本转语音（TTS）训练中，显著提升了模型性能。UNO在情感TTS中展现了灵活适应不同说话风格的能力。此外，研究还探讨了结合自监督学习和语音增强技术的噪声鲁棒零样本文本到语音方法，以提高合成语音的质量和可懂度。

🎯

❓

不确定性感知优化（UNO）是一种将主观人类评估整合到文本转语音（TTS）训练中的方法，旨在提升语音生成的效用。

UNO显著提升了TTS模型在MOS、词错误率和说话人相似性方面的零样本性能。

UNO在情感TTS中展现了灵活适应不同说话风格的能力。

噪声鲁棒方法通过适配器和语音增强前端微调，增强了对参考语音中噪声的鲁棒性。

自监督学习用于提取说话人嵌入，以提高零样本文本到语音方法的准确性。

结合语音增强技术可以有效提高合成语音的质量和可懂度，尤其在噪声环境中表现出色。

🏷️