魔我:身份特定视频定制扩散

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了名为CustomVideo的新型框架,可以生成多个主题引导下的保持身份特征的视频。通过将多个主题组合于单个图像中,促进多主题同时出现。设计了简单而有效的注意力控制策略,解开不同主题的潜在空间。通过分割对象和提供对象蒙版,帮助模型专注于特定的对象区域。收集了多主题文本到视频生成数据集作为基准。定性、定量和用户研究结果证明了该方法的优越性。

🎯

关键要点

  • 提出了一种名为CustomVideo的新型框架,能够生成多个主题引导下的视频。
  • 通过将多个主题组合于单个图像中,促进多主题同时出现。
  • 设计了一种简单而有效的注意力控制策略,以解开扩散模型的潜在空间中的不同主题。
  • 通过分割对象和提供对象蒙版,帮助模型专注于特定的对象区域。
  • 收集了一个包含69个个体主题和57个有意义主题对的多主题文本到视频生成数据集作为基准。
  • 广泛的定性、定量和用户研究结果证明了该方法的优越性。
➡️

继续阅读