从文本和视频中生成声音
原文中文,约400字,阅读约需1分钟。发表于: 。提出了一种名为 ReWaS 的新型视频和文本生成声音的方法,通过视频作为文本到音频生成模型的条件控制,从视频中估计音频的结构信息(即能量),同时从用户提示中接收关键内容线索。通过分离音频的生成组件,提供了一个更灵活的系统,允许用户根据其偏好自由调整能量、周围环境和主音源。实验结果证明了该方法在质量、可控性和训练效率方面的优越性。
本研究探讨了音频作为生成时间同步图像动画的线索,并引入了音频同步视觉动画(ASVA)。通过评估验证了AVSync15作为同步生成基准,并展示了模型的优越性能。同时探索了AVSyncDs在各种音频同步生成任务中的潜力,为可控的视觉生成开辟新的道路。