康定斯基 3.0 技术报告

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

最新的大规模文本到图像扩散模型在文本到三维生成领域取得突破,能够通过给定的文本提示创作三维内容。然而,现有技术缺乏根据用户需求对三维内容进行交互式控制和塑造的能力。为了解决这个问题,研究人员首次尝试在条件上添加手绘草图的文本到三维生成,以增强用户的可控性。通过改进的2D条件扩散模型和预训练的照片到草图模型,实现了更好的可控文本到三维生成。实验证明,该方法能够生成与输入的文本提示和草图紧密对齐的准确三维场景。

🎯

关键要点

  • 大规模文本到图像扩散模型在文本到三维生成领域取得重大突破。
  • 现有技术缺乏根据用户需求对三维内容进行交互式控制的能力。
  • 研究人员首次尝试在条件上添加手绘草图以增强用户可控性。
  • 通过改进的2D条件扩散模型引导三维场景学习,使其与文本提示和草图对齐。
  • 利用预训练的照片到草图模型估计合成三维场景的草图。
  • 实验证明该方法能够生成与输入文本提示和草图紧密对齐的三维场景。
➡️

继续阅读