上海交通大学在ICIP 2024推出了一个新的人物交互数据集,包含38组30视角的多人或单人RGB-D视频序列,提供摄像机参数、前景掩码和SMPL模型等信息。视频由30台Kinect Azure摄像机以4K分辨率和25FPS拍摄,解决了现有数据集视角有限和分辨率低的问题,为神经视点合成研究提供了基准,旨在推动人物交互和NVS领域的发展。
本研究提出了一种新方法,通过文本生成高质量的三维人物-物体交互场景。该方法利用双分支扩散模型和互动预测扩散模型,增强了人和物体之间的动作一致性。实验结果表明,该方法在生成逼真互动方面优于现有技术,能够有效处理复杂的空间关系和多样的物体形状。
完成下面两步后,将自动完成登录并继续当前操作。