小红花·文摘

GenZI是一个零样本方法，用于生成3D人与场景的交互。它利用大型视觉-语言模型从二维人-场景组合的语义空间中提取交互先验知识，并通过迭代优化过程合成场景中的3D人模型的姿态和形状。与传统方法相比，GenZI不需要捕获3D交互数据，可以通过简单的文字提示进行控制。实验证明该方法具有高灵活性和广泛适用性。