LatentSync: Lip Syncing Based on Audio-Conditioned Latent Diffusion Model

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种新颖的全端到端口型同步框架LatentSync,基于音频条件的潜在扩散模型,旨在提高时序一致性和口型同步的准确性。

🎯

关键要点

  • 本研究提出了一种新颖的全端到端口型同步框架LatentSync。
  • LatentSync基于音频条件的潜在扩散模型,省略了中间运动表示。
  • 该框架旨在提高时序一致性和口型同步的准确性。
  • 引入时序表示对齐(TREPA)策略,实现了更好的时序一致性和口型同步准确度。
  • 显著提高了SyncNet在HDTF测试集上的准确率。
➡️

继续阅读