CSTalk: 协作监督的语音驱动 3D 情感面部动画生成
原文中文,约200字,阅读约需1分钟。发表于: 。本研究提出了一种名为 CSTalk 的方法,通过建模面部运动不同区域之间的相关性并监督生成模型的训练,生成符合人脸运动模式的真实表情,解决了语音驱动的 3D 面部动画技术中面临的数据限制、唇部对齐以及面部表情自然度等挑战,实验结果表明我们的方法优于现有最先进的方法。
本研究提出了一种新的语音驱动面部生成方法,能够通过输入语音、面部图像和情感标签来呈现表情。该系统在图像质量、音视频同步和视觉情感表达方面表现出色,经过主观和客观评估证明了其优越性。此外,利用生成的视频进行了人类情感识别实验,结果显示在音频和视觉模态不匹配的情况下,人们对视觉模态的响应更为显著。