DisenStudio:定制化多主题文本到视频生成与解耦空间控制
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了一种名为CustomVideo的新型框架,通过多主题组合和注意力控制策略生成保持身份特征的视频。研究结果表明,该方法在定性、定量和用户研究方面优于之前的方法。
🎯
关键要点
- 提出了一种名为CustomVideo的新型框架,能够生成保持身份特征的视频。
- 通过将多个主题组合于单个图像中,促进多主题同时出现。
- 设计了一种简单而有效的注意力控制策略,以解开扩散模型的潜在空间中的不同主题。
- 从给定的参考图像中分割对象,为注意力学习提供相应的对象蒙版。
- 收集了一个包含69个个体主题和57个有意义主题对的多主题文本到视频生成数据集。
- 广泛的定性、定量和用户研究结果证明了该方法的优越性。
🏷️
标签
➡️