JoyVASA: Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation for Portrait and Animal Image Animation

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了JoyVASA框架,解决了音频驱动肖像动画模型在训练效率和视频时长上的限制。通过解耦动态面部表情与静态3D表示,JoyVASA能够生成更长的视频并实现动物面部动画,实验结果表明其在动画质量和保真度上具有显著优势。

🎯

关键要点

  • JoyVASA框架解决了音频驱动肖像动画模型在训练和推理中的效率问题。
  • 该框架通过解耦动态面部表情与静态3D表示,能够生成更长的视频。
  • JoyVASA还实现了动物面部动画,扩展了应用范围。
  • 实验结果表明,JoyVASA在动画质量和保真度上具有显著优势。
➡️

继续阅读