AttentionHand: 野外环境下基于文本的可控手部图像生成用于 3D 手部重建

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

最新的文本到图像扩散模型在文本到三维生成领域取得重大突破,通过文本提示和手绘草图生成准确的三维场景,提高用户可控性和交互性。

🎯

关键要点

  • 最新的文本到图像扩散模型在文本到三维生成领域取得重大突破。
  • 该模型能够仅通过文本提示从零开始创作三维内容。
  • 现有技术缺乏根据用户需求(如草图)对三维内容进行交互式控制的能力。
  • 首次尝试在条件上添加手绘草图的文本到三维生成,称为Control3D,以增强用户可控性。
  • 通过改进的2D条件扩散模型(ControlNet)引导三维场景的学习,使其与文本提示和手绘草图对齐。
  • 利用预训练的可微分照片到草图模型估计合成三维场景的渲染图像草图。
  • 生成的草图与给定草图在几何上保持一致,实现更好的可控文本到三维生成。
  • 广泛实验表明,该提议能够生成与输入文本提示和草图紧密对齐的准确三维场景。
➡️

继续阅读