DREAM-Talk: 基于扩散的逼真情感音频驱动的单张图像说话脸生成方法

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本研究提出了一种新的语音驱动面部生成方法,通过输入语音、面部图像和情感标签,实现了视觉情感表达。系统在图像质量、音视频同步和视觉情感表达方面表现出色,经过主观和客观评估证明了其优越性。人类情感识别实验结果显示,在音频和视觉模态不匹配的情况下,人们对视觉模态的响应更为显著。

🎯

关键要点

  • 提出了一种新的语音驱动面部生成方法。
  • 设计了一个端到端的语音驱动面部生成系统。
  • 系统可以通过输入语音、面部图像和情感标签来呈现表情。
  • 在图像质量、音视频同步和视觉情感表达方面表现出色。
  • 主观和客观评估证明了系统的优越性。
  • 进行的人类情感识别实验显示视觉模态响应更为显著,尤其在音频和视觉模态不匹配的情况下。
➡️

继续阅读