MMHead:迈向细粒度多模态3D面部动画
原文中文,约300字,阅读约需1分钟。发表于: 。本研究旨在解决多模态3D面部动画,尤其是文本引导的3D面部动画的研究缺乏问题。通过构建一个包含49小时3D面部动作序列、语音音频和丰富层次文本注释的大规模数据集MMHead,提出了一种新颖的方法来统一多模态信息并生成多样且合理的3D面部运动。实验结果表明,该数据集和基准测试具有显著的潜力,有助于推动多模态3D面部动画的发展。
语音合成3D面部动画引起关注。通过三位一体方法,首先引入广义神经参数面部特征(GNPFA)从视频中提取表情和头部姿势。然后提出Media2Face扩散模型,在GNPFA空间中生成与音频、文本和图像相关的面部动画。实验表明,该模型在动画合成上具有高保真度,并增强了表现力和风格适应性。