基于KAN的双域融合音频驱动面部关键点生成

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

SPEAK是一种一次性Talking Head Generation框架,通过情感和姿势控制实现与一般Talking Face Generation的区别。该方法采用IRFD方法将人脸特征解耦为三个潜在空间,并设计了一个面部编辑模块,将语音内容和面部潜在编码修改为单一的潜在空间。实验表明,该方法可以生成逼真说话角色。

🎯

关键要点

  • 提出了一种名为SPEAK的一次性Talking Head Generation框架。
  • SPEAK通过情感和姿势控制与一般Talking Face Generation有所区别。
  • 该方法采用IRFD方法将人脸特征解耦为三个潜在空间。
  • 设计了一个面部编辑模块,将语音内容和面部潜在编码修改为单一的潜在空间。
  • 提出了一种新颖的生成器,利用编辑模块生成的修改后的潜在编码调节情感表达、头部姿势和语音内容。
  • 大量实验表明,该方法可以生成逼真说话角色,具有协调的唇部运动、真实的面部情感和平滑的头部运动。
➡️

继续阅读