小红花·文摘

本文介绍了一种名为FaceFormer的基于Transformer的自回归模型，用于声控3D面部动画。该模型通过自监督预训练解决数据稀缺问题，并优化了注意机制，实验结果显示其性能优于现有技术。此外，研究提出了多种方法改善语音驱动的面部动画效果，包括自适应调制模块和条件扩散模型，提升了唇部同步性和动画编辑效率。