从文本和视频中生成声音
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究探讨了音频作为生成时间同步图像动画的线索,并引入了音频同步视觉动画(ASVA)。通过评估验证了AVSync15作为同步生成基准,并展示了模型的优越性能。同时探索了AVSyncDs在各种音频同步生成任务中的潜力,为可控的视觉生成开辟新的道路。
🎯
关键要点
-
当前的视觉生成方法通过文本生成高质量视频,但控制物体动态仍然具有挑战性。
-
本研究探讨了音频作为生成时间同步图像动画的线索,提出音频同步视觉动画(ASVA)。
-
引入了基于 VGGSound 的数据集 AVSync15,展示了音频和视觉事件的同步。
-
提出了一种扩散模型 AVSyncD,能够通过音频生成动态动画。
-
广泛评估验证了 AVSync15 作为可靠的同步生成基准,展示了模型的优越性能。
-
探索了 AVSyncDs 在各种音频同步生成任务中的潜力,包括从无基础图像生成完整视频。
-
希望建立的基准能为可控的视觉生成开辟新的道路。
➡️