本文提出了一种多语言对话生成系统,结合人脸生成和文本到语音技术,能够生成自然语音和同步口型。该系统通过规范空间和多模态运动空间,实现可控面部动作,生成高质量的交谈视频,视觉质量和唇部同步达到先进水平。同时,研究展示了基于文本的个性化面部表情生成方法,具有更高的真实性和自然性。
mDIA是第一个跨越低至高资源语言的大规模多语言对话生成基准。通过微调mT5和DialoGPT两种预训练模型,作者对46种语言中的真实对话进行了测试,结果显示mT5模型在sacreBLEU和BertScore方面表现更好,但多样性较差。作者希望发布mDIA以促进生成多语言对话的研究和语言多样性。
完成下面两步后,将自动完成登录并继续当前操作。