本文介绍了一种新型视频生成模型,利用自监督学习和三维人脸标志点,实现头部姿态和表情的自由控制。该模型通过音频信号生成高保真的面部表情和动作,实验结果显示其在音视频同步和质量上优于现有技术。
完成下面两步后,将自动完成登录并继续当前操作。