增强同步性的遮蔽式生成式视频 - 音频变换器
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究探讨了音频作为生成时间同步图像动画的线索,并引入了音频同步视觉动画(ASVA)。通过音频生成动态动画,评估验证了ASVA作为同步生成基准,并展示了优越性能。研究还探索了ASVA在各种音频同步生成任务中的潜力,为可控的视觉生成开辟新的道路。
🎯
关键要点
- 当前视觉生成方法通过文本生成高质量视频,但控制物体动态仍然具有挑战性。
- 本研究探讨了音频作为生成时间同步图像动画的线索,提出了音频同步视觉动画(ASVA)。
- 引入了基于 VGGSound 的数据集 AVSync15,展示了音频和视觉事件的同步。
- 提出了一种扩散模型 AVSyncD,能够通过音频生成动态动画。
- 广泛评估验证了 AVSync15 作为可靠的同步生成基准,展示了模型的优越性能。
- 进一步探索了 AVSyncDs 在各种音频同步生成任务中的潜力。
- 希望建立的基准能为可控的视觉生成开辟新的道路。
➡️