本研究提出了一种零-shot人-物交互合成框架,旨在解决3D人-物交互数据获取困难导致的多样性不足问题。该方法利用预训练的多模态模型,从文本描述生成时序一致的2D人-物交互图像序列,并提升到3D交互,增强物理真实感和语义多样性。
本研究提出了一种新方法,从单幅图像中重建人-物交互(HOI),并构建了开放词汇的3D HOI数据集Open3DHOI。关键在于高效的高斯HOI优化器,能够有效重建人和物之间的空间交互。
本研究提出了一种新方法,利用视觉语言模型(VLM)提升人-物交互检测能力,通过量化HOI三元组的相似性,实现了最先进的检测准确率,推动了可解释的人-物交互分析的发展。
上海交通大学在ICIP 2024推出了一个新的人物交互数据集,包含38组30视角的多人或单人RGB-D视频序列,提供摄像机参数、前景掩码和SMPL模型等信息。视频由30台Kinect Azure摄像机以4K分辨率和25FPS拍摄,解决了现有数据集视角有限和分辨率低的问题,为神经视点合成研究提供了基准,旨在推动人物交互和NVS领域的发展。
D3D-HOI是一个用于人-物交互的三维视频数据集,旨在评估对象质量。研究提出了多种生成动态3D人物-物体交互的方法,包括基于文本生成、交互预测和模块化设计,显著提升了生成的真实感和多样性。新方法如CG-HOI和HIMO数据集,推动了复杂交互场景的生成与控制。
本文介绍了一种新型深度神经网络HO-RCNN及其在检测人-物交互(HOI)中的应用。该网络结合交互模式特征,显著提升了检测性能。研究提出了多种基于transformer的算法,解决了类别不平衡和多标签需求问题,并在多个数据集上取得了最佳结果。最新方法在HICO-DET和V-COCO上表现优异,训练时间更短,推动了HOI检测技术的发展。
HOI Transformer是一种用于人-物交互检测的算法,通过全局图像上下文推断物体与人的关系,提升了HICO-DET和V-COCO数据集的性能。研究还提出了基于视觉-语言知识蒸馏的零样本人-物交互检测框架,利用CLIP模型实现更准确的检测。新开发的MP-HOI检测器通过多模态提示和大规模数据集优化HOI任务,展现出卓越的零样本能力和广泛应用潜力。
本文介绍了一种名为MP-HOI的多模态人-物交互检测器,能够通过文本描述进行开放世界中的交互检测。研究构建了Magic-HOI数据集和高质量合成数据集SynHOI,以优化检测性能。MP-HOI在多个基准测试中表现优异,具备强大的零样本能力,并在HICO-DET和V-COCO数据集上超越现有方法。
本文提出了多种基于场景图信息的人-物交互检测方法,包括利用几何特征的图卷积网络、时空变换器和级联架构等。这些方法显著提高了识别准确率,并在多个数据集上验证了其有效性,推动了人-物交互识别的研究进展。
本研究探讨了开放世界环境下的人-物交互识别,提出了新方法和数据集以解决类别不平衡问题并提高检测性能。通过结合虚拟与真实图像、结构化文本知识和视觉语言模型,研究在多个基准测试中取得了最先进的结果,推动了该领域的发展。
本文设计了一个框架用于检测和预测视频中的人-物交互,提出了融合人类注视信息和视觉特征的时空变换器。研究了注视与深度学习的结合,开发了新模型Gazeformer和GHO-Diffusion,显著提升了图像字幕和人-物交互检测的性能,并通过实验验证了其在多个数据集上的有效性。
本文提出了一种面向视频中长期动作预测的物体中心表示,利用视觉-语言预训练模型提取特定表示。通过双重注意力网络识别人-物交互,并在多个基准测试中验证了其有效性。该模型实现了动作的同时识别和弱空间时间定位,展现了良好的性能。
该研究聚焦于人-物交互检测,提出了解耦三元组预测和Disentangled Transformer等新方法,显著提升了HICO-DET和V-COCO数据集上的检测性能。通过结合强弱监督数据和视觉语言模型,研究有效解决了样本不均衡问题,并在零样本学习中表现优异。
本研究提出了一种新方法,通过文本生成高质量的三维人物-物体交互场景。该方法利用双分支扩散模型和互动预测扩散模型,增强了人和物体之间的动作一致性。实验结果表明,该方法在生成逼真互动方面优于现有技术,能够有效处理复杂的空间关系和多样的物体形状。
该研究提出了一种基于CLIP的人-物交互(HOI)检测框架,通过多种模块提取知识,提高了检测准确性,在HICO-Det数据集上提升了4.04 mAP。此外,研究还探索了零样本人-物交互检测,结合强弱监督数据的方法,显著提升了模型的鲁棒性和性能。实验结果表明,该方法在多个数据集上表现优异,具有实用价值。
完成下面两步后,将自动完成登录并继续当前操作。