机器之心 ·

ICLR 2025｜南洋理工大学AvatarGO，探索4D人与物体交互生成新方法

💡 原文中文，约9000字，阅读约需22分钟。

📝

内容提要

AvatarGO是一种新方法，能够生成具有物体交互的4D虚拟形象。它利用大语言模型识别接触区域，并通过运动优化增强3D人体与物体交互的鲁棒性。实验表明，AvatarGO在生成高保真4D动画方面显著优于现有技术，但对非刚性物体的处理仍存在不足。

🎯

🔎

AvatarGO通过引入大语言模型（LLM）来识别物体与人体的接触区域，解决了传统方法在复杂交互场景中的局限性。这一创新使得生成的4D动画在流畅性和真实感上有了显著提升，尤其是在动态交互中表现出更好的鲁棒性。

尽管AvatarGO在生成高保真4D动画方面表现优异，但其假设物体为刚性体的局限性使其不适用于非刚性物体的动画生成。此外，AvatarGO在处理需要断开连接的交互任务时也面临挑战，这限制了其在某些应用场景中的适用性。

与其他主流4D生成方法相比，AvatarGO在处理人体与物体的交互时展现出更高的准确性和流畅性。尤其是在复杂的日常交互场景中，AvatarGO能够更好地保持物体与人体之间的空间关系，避免了穿模问题的发生。

❓

AvatarGO是一种新方法，能够生成具有物体交互的4D虚拟形象。

AvatarGO通过运动优化和大语言模型识别接触区域来增强3D人体与物体交互的鲁棒性。

实验表明，AvatarGO在生成高保真4D动画方面显著优于现有技术，尤其在复杂交互场景中表现更佳。

AvatarGO假设物体是刚性体，因此不适用于生成非刚性内容的动画。

AvatarGO利用大语言模型从文本中识别接触区域，并将其作为优化过程的初始化。

AvatarGO的框架包括文本驱动的3D人体与物体组合和对应关系感知的动作优化。

🏷️