增强同步性的遮蔽式生成式视频 - 音频变换器

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究探讨了音频作为生成时间同步图像动画的线索,并引入了音频同步视觉动画(ASVA)。通过音频生成动态动画,评估验证了ASVA作为同步生成基准,并展示了优越性能。研究还探索了ASVA在各种音频同步生成任务中的潜力,为可控的视觉生成开辟新的道路。

🎯

关键要点

  • 当前视觉生成方法通过文本生成高质量视频,但控制物体动态仍然具有挑战性。
  • 本研究探讨了音频作为生成时间同步图像动画的线索,提出了音频同步视觉动画(ASVA)。
  • 引入了基于 VGGSound 的数据集 AVSync15,展示了音频和视觉事件的同步。
  • 提出了一种扩散模型 AVSyncD,能够通过音频生成动态动画。
  • 广泛评估验证了 AVSync15 作为可靠的同步生成基准,展示了模型的优越性能。
  • 进一步探索了 AVSyncDs 在各种音频同步生成任务中的潜力。
  • 希望建立的基准能为可控的视觉生成开辟新的道路。
➡️

继续阅读