小红花·文摘

本研究提出了一种多模态情感编码器，结合文本、图像和语音，实现灵活的情感控制和高质量面部生成。通过深度神经网络，生成高保真度的情感视频肖像，提升面部动画的情感表达和同步性能。研究展示了基于语音的面部生成和情感视频肖像的优势。