InterDreamer: 零激活文本向三维动态人物 - 物体交互

💡 原文中文,约2200字,阅读约需6分钟。
📝

内容提要

本研究提出了一种新方法,通过文本生成高质量的三维人物-物体交互场景。该方法利用双分支扩散模型和互动预测扩散模型,增强了人和物体之间的动作一致性。实验结果表明,该方法在生成逼真互动方面优于现有技术,能够有效处理复杂的空间关系和多样的物体形状。

🎯

关键要点

  • 本研究利用 InterFusion 框架,通过人体姿势估计实现高质量三维人物-物体交互场景的生成。
  • 采用双分支扩散模型(HOI-DM)和互动预测扩散模型(APDM)来增强人和物体之间的动作一致性。
  • APDM 可以纠正 HOI-DM 的潜在错误,并随机生成接触点以多样化生成的动作。
  • 提出 CG-HOI 方法,通过显式建模人体表面与物体几何之间的接触,生成更真实的交互序列。
  • THOR 模型引入关系干预机制,增强人体和物体之间的时空关系,生成合理的互动。
  • 构建了 Text-BEHAVE 数据集,将文本描述与最大 3D HOI 数据集无缝集成,验证模型有效性。
  • D3D-HOI 数据集用于评估人-物交互的质量,包含多种现实场景和摄像机视角。
  • GenZI 是第一个零样本方法,利用视觉-语言模型生成 3D 人与场景的交互,避免对捕获的 3D 数据的需求。
  • KI2HOI 框架整合视觉语言模型的知识,改进零样本人物-物体交互检测,优于以前的方法。
  • 研究探索社交场景下人和物体之间相互作用识别的方法,并提出硬负样本采样策略。

延伸问答

InterDreamer 的主要创新点是什么?

InterDreamer 通过双分支扩散模型和互动预测扩散模型,增强了人和物体之间的动作一致性,生成高质量的三维人物-物体交互场景。

CG-HOI 方法是如何提高三维交互生成的真实性的?

CG-HOI 方法通过显式建模人体表面与物体几何之间的接触,生成更真实的交互序列。

GenZI 方法的优势是什么?

GenZI 是第一个零样本方法,利用视觉-语言模型生成 3D 人与场景的交互,避免了对捕获的 3D 数据的需求。

THOR 模型如何增强人和物体之间的时空关系?

THOR 模型通过关系干预机制引导人体和物体运动,增强了它们之间的时空关系。

D3D-HOI 数据集的用途是什么?

D3D-HOI 数据集用于评估人-物交互的质量,包含多种现实场景和摄像机视角。

KI2HOI 框架的主要功能是什么?

KI2HOI 框架整合视觉语言模型的知识,改进零样本人物-物体交互检测。

➡️

继续阅读