模仿谈话:在几分钟内模仿个性化和富有表现力的三维谈话面孔
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
Talk3D是一种音频驱动的说话头合成框架,利用预训练的3D生成模型重建面部几何。通过注意力U-Net架构,模型在NeRF空间中预测动态面部变化,并使用调节令牌解耦音频无关的变化。相比现有方法,Talk3D在生成逼真面部几何方面表现出色,即使在极端头部姿势下也能保持效果,实验结果显示其超越现有基准。
🎯
关键要点
-
Talk3D是一种音频驱动的说话头合成框架。
-
该框架利用预训练的3D生成模型重建面部几何。
-
模型采用音频驱动的注意力U-Net架构,预测动态面部变化。
-
使用调节令牌解耦与音频无关的变化。
-
Talk3D在生成逼真面部几何方面表现出色,尤其在极端头部姿势下。
-
实验结果显示Talk3D超越了现有的基准。
➡️