小红花·文摘

本研究提出了一种名为不确定性感知优化（UNO）的方法，将主观人类评估整合到文本转语音（TTS）训练中，显著提升了模型性能。UNO在情感TTS中展现了灵活适应不同说话风格的能力。此外，研究还探讨了结合自监督学习和语音增强技术的噪声鲁棒零样本文本到语音方法，以提高合成语音的质量和可懂度。