本研究提出了一种零-shot人-物交互合成框架,旨在解决3D人-物交互数据获取困难导致的多样性不足问题。该方法利用预训练的多模态模型,从文本描述生成时序一致的2D人-物交互图像序列,并提升到3D交互,增强物理真实感和语义多样性。
本研究提出了一种新方法,从单幅图像中重建人-物交互(HOI),并构建了开放词汇的3D HOI数据集Open3DHOI。关键在于高效的高斯HOI优化器,能够有效重建人和物之间的空间交互。
本研究提出了一种新方法,通过视觉语言模型(VLM)量化人-物交互检测中的HOI三元组相似性,实验结果表明该方法在检测准确率上达到了最先进水平,推动了人-物交互分析的进展。
上海交通大学在ICIP 2024推出了一个新的人物交互数据集,包含38组30视角的多人或单人RGB-D视频序列,提供摄像机参数、前景掩码和SMPL模型等信息。视频由30台Kinect Azure摄像机以4K分辨率和25FPS拍摄,解决了现有数据集视角有限和分辨率低的问题,为神经视点合成研究提供了基准,旨在推动人物交互和NVS领域的发展。
完成下面两步后,将自动完成登录并继续当前操作。