基于KAN的双域融合音频驱动面部关键点生成
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
SPEAK是一种一次性Talking Head Generation框架,通过情感和姿势控制实现与一般Talking Face Generation的区别。该方法采用IRFD方法将人脸特征解耦为三个潜在空间,并设计了一个面部编辑模块,将语音内容和面部潜在编码修改为单一的潜在空间。实验表明,该方法可以生成逼真说话角色。
🎯
关键要点
- 提出了一种名为SPEAK的一次性Talking Head Generation框架。
- SPEAK通过情感和姿势控制与一般Talking Face Generation有所区别。
- 该方法采用IRFD方法将人脸特征解耦为三个潜在空间。
- 设计了一个面部编辑模块,将语音内容和面部潜在编码修改为单一的潜在空间。
- 提出了一种新颖的生成器,利用编辑模块生成的修改后的潜在编码调节情感表达、头部姿势和语音内容。
- 大量实验表明,该方法可以生成逼真说话角色,具有协调的唇部运动、真实的面部情感和平滑的头部运动。
➡️