模仿谈话:在几分钟内模仿个性化和富有表现力的三维谈话面孔
原文中文,约300字,阅读约需1分钟。发表于: 。本文针对个性化的谈话面孔生成(TFG)研究,解决了传统方法在效率和普适性方面的不足。提出的MimicTalk模型借助无关身份的3D TFG模型,通过静态-动态-混合适配流程和音频到运动的风格化生成,能够在短短15分钟内高效适配至新身份,并在视频质量、效率和表现力上超越现有基线。
Talk3D是一种音频驱动的说话头合成框架,利用预训练的3D生成模型重建面部几何。通过注意力U-Net架构,模型在NeRF空间中预测动态面部变化,并使用调节令牌解耦音频无关的变化。相比现有方法,Talk3D在生成逼真面部几何方面表现出色,即使在极端头部姿势下也能保持效果,实验结果显示其超越现有基准。