本研究提出了一种多模态情感编码器,结合文本、图像和语音,实现灵活的情感控制和高质量面部生成。通过深度神经网络,生成高保真度的情感视频肖像,提升面部动画的情感表达和同步性能。研究展示了基于语音的面部生成和情感视频肖像的优势。
完成下面两步后,将自动完成登录并继续当前操作。