本研究提出DiffCSS框架,旨在解决对话语音合成系统的确定性预测问题,从而提高响应的多样性和自然感。实验结果表明,DiffCSS生成的语音在多样性和表现力方面优于现有系统。
本研究通过插入不流畅性来提升大型语言模型生成语音的自然感,尽管可能略微影响可懂性,但显著增强了用户对语音自然性的印象。
完成下面两步后,将自动完成登录并继续当前操作。