InterDreamer: 零激活文本向三维动态人物 - 物体交互
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
GenZI是一个零样本方法,用于生成3D人与场景的交互。它利用大型视觉-语言模型从二维人-场景组合的语义空间中提取交互先验知识,并通过迭代优化过程合成场景中的3D人模型的姿态和形状。与传统方法相比,GenZI不需要捕获3D交互数据,可以通过简单的文字提示进行控制。实验证明该方法具有高灵活性和广泛适用性。
🎯
关键要点
- GenZI是第一个零样本方法,用于生成3D人与场景的交互。
- GenZI从大型视觉-语言模型中提取交互先验知识,学习二维人-场景组合的语义空间。
- 通过自然语言描述和3D场景中的粗略点位置,GenZI生成可信的二维人交互的多个渲染视图。
- 采用鲁棒的迭代优化过程,合成场景中的3D人模型的姿态和形状。
- 与传统方法相比,GenZI不需要捕获3D交互数据,使用简单的文字提示进行控制。
- 实验证明GenZI具有高灵活性和广泛适用性,适用于各种场景类型,包括室内和室外环境。
➡️