BriefGPT - AI 论文速递 ·

询问、动作、团结：扩大数据获取以实现与视觉语言模型的紧密互动

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

本文介绍了多种3D人机交互模型的研究进展，包括POSA模型、GenZI和DreamHOI等。研究利用大型语言模型和新数据集，提高了3D重建和姿态估计的准确性，解决了数据稀缺问题，展示了在真实场景中生成自然人机互动的潜力。

🎯

🔎

随着POSA模型和GenZI等新方法的提出，3D人机交互的准确性和灵活性得到了显著提升。这些技术不仅解决了数据稀缺的问题，还展示了在真实场景中生成自然互动的可能性，预示着未来人机交互的广泛应用前景。

文章强调了大型语言模型在推断人-物互动中的重要性。通过利用这些模型的先验知识，研究者能够在缺乏3D交互数据的情况下，生成可信的3D人-物交互。这一方法的灵活性为未来的研究和应用提供了新的方向。

研究中提出的姿态优化方法，通过结合大型预训练模型的语言描述，能够有效约束3D姿态的优化。这种方法不仅提高了姿态重建的准确性，还为解决复杂的接触问题提供了统一的框架，具有较高的实用价值。

❓

POSA模型用于学习人体与场景的交互，改进3D人物自动放置和单目人体姿态估计。

GenZI是首个零样本方法，能够生成3D人与场景的交互，避免了对3D交互数据的需求。

通过构建新的数据集DAMON和训练3D接触检测器DECO，显著提高了3D接触检测的准确性。

CG-HOI是第一个从文本生成动态3D人物-物体交互的方法，通过建模人体表面与物体几何的接触生成真实的交互序列。

DreamHOI结合隐式神经辐射场与显式骨骼驱动的网格关节，利用文本描述使三维人类模型能够与任意对象真实互动。

通过ProciGen和HDM方法，从单个RGB图像中重建人物与物体之间的三维交互，无需使用模板网格。

🏷️