模仿谈话：在几分钟内模仿个性化和富有表现力的三维谈话面孔

本文针对个性化的谈话面孔生成（TFG）研究，解决了传统方法在效率和普适性方面的不足。提出的MimicTalk模型借助无关身份的3D TFG模型，通过静态-动态-混合适配流程和音频到运动的风格化生成，能够在短短15分钟内高效适配至新身份，并在视频质量、效率和表现力上超越现有基线。

Talk3D是一种音频驱动的说话头合成框架，利用预训练的3D生成模型重建面部几何。通过注意力U-Net架构，模型在NeRF空间中预测动态面部变化，并使用调节令牌解耦音频无关的变化。相比现有方法，Talk3D在生成逼真面部几何方面表现出色，即使在极端头部姿势下也能保持效果，实验结果显示其超越现有基准。

3D生成模型 NeRF Talk3D 面部几何音频驱动