InterDreamer: 零激活文本向三维动态人物 - 物体交互
💡
原文中文,约2200字,阅读约需6分钟。
📝
内容提要
本研究提出了一种新方法,通过文本生成高质量的三维人物-物体交互场景。该方法利用双分支扩散模型和互动预测扩散模型,增强了人和物体之间的动作一致性。实验结果表明,该方法在生成逼真互动方面优于现有技术,能够有效处理复杂的空间关系和多样的物体形状。
🎯
关键要点
- 本研究利用 InterFusion 框架,通过人体姿势估计实现高质量三维人物-物体交互场景的生成。
- 采用双分支扩散模型(HOI-DM)和互动预测扩散模型(APDM)来增强人和物体之间的动作一致性。
- APDM 可以纠正 HOI-DM 的潜在错误,并随机生成接触点以多样化生成的动作。
- 提出 CG-HOI 方法,通过显式建模人体表面与物体几何之间的接触,生成更真实的交互序列。
- THOR 模型引入关系干预机制,增强人体和物体之间的时空关系,生成合理的互动。
- 构建了 Text-BEHAVE 数据集,将文本描述与最大 3D HOI 数据集无缝集成,验证模型有效性。
- D3D-HOI 数据集用于评估人-物交互的质量,包含多种现实场景和摄像机视角。
- GenZI 是第一个零样本方法,利用视觉-语言模型生成 3D 人与场景的交互,避免对捕获的 3D 数据的需求。
- KI2HOI 框架整合视觉语言模型的知识,改进零样本人物-物体交互检测,优于以前的方法。
- 研究探索社交场景下人和物体之间相互作用识别的方法,并提出硬负样本采样策略。
❓
延伸问答
InterDreamer 的主要创新点是什么?
InterDreamer 通过双分支扩散模型和互动预测扩散模型,增强了人和物体之间的动作一致性,生成高质量的三维人物-物体交互场景。
CG-HOI 方法是如何提高三维交互生成的真实性的?
CG-HOI 方法通过显式建模人体表面与物体几何之间的接触,生成更真实的交互序列。
GenZI 方法的优势是什么?
GenZI 是第一个零样本方法,利用视觉-语言模型生成 3D 人与场景的交互,避免了对捕获的 3D 数据的需求。
THOR 模型如何增强人和物体之间的时空关系?
THOR 模型通过关系干预机制引导人体和物体运动,增强了它们之间的时空关系。
D3D-HOI 数据集的用途是什么?
D3D-HOI 数据集用于评估人-物交互的质量,包含多种现实场景和摄像机视角。
KI2HOI 框架的主要功能是什么?
KI2HOI 框架整合视觉语言模型的知识,改进零样本人物-物体交互检测。
➡️