DisenStudio:定制化多主题文本到视频生成与解耦空间控制
原文中文,约400字,阅读约需1分钟。发表于: 。本文提出了一种名为 DisenStudio 的新框架,通过增强预训练的基于扩散的文本到视频模型,使用空间分离的交叉注意机制将每个主题与期望的动作相关联,并使用三种微调策略来定制多个主题。通过广泛的实验证明,DisenStudio 在各种指标上明显优于现有方法,并且可以作为各种可控生成应用的强大工具。
本文介绍了一种名为CustomVideo的新型框架,通过多主题组合和注意力控制策略生成保持身份特征的视频。研究结果表明,该方法在定性、定量和用户研究方面优于之前的方法。