本研究提出DiffCSS框架,旨在解决对话语音合成系统的确定性预测问题,从而提高响应的多样性和自然感。实验结果表明,DiffCSS生成的语音在多样性和表现力方面优于现有系统。
本研究提出JELLY框架,解决对话语音合成中的上下文和情感识别问题。通过微调大型语言模型,JELLY能够自然生成符合对话情感的语音,实验结果表明其在情感上下文建模方面表现优异。
完成下面两步后,将自动完成登录并继续当前操作。