从文本和视频中生成声音

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究探讨了音频作为生成时间同步图像动画的线索,并引入了音频同步视觉动画(ASVA)。通过评估验证了AVSync15作为同步生成基准,并展示了模型的优越性能。同时探索了AVSyncDs在各种音频同步生成任务中的潜力,为可控的视觉生成开辟新的道路。

🎯

关键要点

  • 当前的视觉生成方法通过文本生成高质量视频,但控制物体动态仍然具有挑战性。

  • 本研究探讨了音频作为生成时间同步图像动画的线索,提出音频同步视觉动画(ASVA)。

  • 引入了基于 VGGSound 的数据集 AVSync15,展示了音频和视觉事件的同步。

  • 提出了一种扩散模型 AVSyncD,能够通过音频生成动态动画。

  • 广泛评估验证了 AVSync15 作为可靠的同步生成基准,展示了模型的优越性能。

  • 探索了 AVSyncDs 在各种音频同步生成任务中的潜力,包括从无基础图像生成完整视频。

  • 希望建立的基准能为可控的视觉生成开辟新的道路。

➡️

继续阅读