GenZI: 零 Shot 3D 人物场景交互生成
原文中文,约500字,阅读约需1分钟。发表于: 。可以不借助任何 3D 人 - 场景交互数据合成 3D 人与场景交互吗?我们提出了 GenZI,这是第一个零样本方法,用于生成 3D 人与场景的交互。GenZI 的关键在于从大型视觉 - 语言模型 (VLMs) 中提取交互先验知识,这些先验知识学习了丰富的二维人 - 场景组合的语义空间。通过给定自然语言描述和 3D 场景中所需交互的粗略点位置,我们首先利用 VLMs...
GenZI是一种零样本方法,用于生成3D人与场景的交互。它利用大型视觉-语言模型从二维人-场景组合的语义空间中提取交互先验知识,并通过迭代优化过程合成场景中的3D人模型的姿态和形状。与传统方法相比,GenZI不需要捕获3D交互数据,可以通过简单的文字提示进行灵活控制。实验证明该方法适用于各种场景类型。