本文探讨了基于VQ-VAE和GPT的人体运动生成框架,提出了InterGen、CHOIS和HOI-DM等方法,以提高生成质量和多样性。研究表明,通过文本指令生成逼真的人-物互动动作,显著改善了在机器人、游戏和动画等领域的应用效果。
本研究提出了一种新颖的词汇多义性辨析网络(PD-Net),用于人-物互动检测,并构建了新的基准数据集。通过分析动词的视觉多义性,该方法在多个数据库上表现优异。此外,研究开发了基于对象的跨模态校准网络(OCN)和多模态提示的HOI检测器(MP-HOI),实现了更高的准确性和开放世界的交互识别能力。实验结果显示,所提方法在多个基准测试中均取得了最先进的性能。
本文介绍了多种人-物互动(HOI)检测的新方法,如DiffHOI、KI2HOI和GeoHOI。这些方法利用预训练模型和新颖的解码器,提高了检测性能,解决了长尾问题和零样本学习的挑战。实验结果表明,这些方法在HICO-DET和V-COCO数据集上表现优异,推动了HOI检测技术的发展。
本文研究了通过人物与物体的交互信息改进文本到图像的扩散模型,提出了可插拔的交互控制模型和双分支扩散模型(HOI-DM),以生成逼真的人-物互动。同时,开发了互动预测扩散模型(APDM),提高了接触区域的预测准确性。实验结果表明,该方法在生成多样化的三维人-物互动方面表现优异,并有效解决了类别分布不平衡的问题。
ENIGMA-51是一个新的以自我为中心的数据集,由19名被试在真实的工业领域中遵循指令完成使用工业工具和电子仪器修复电路板的任务。该数据集的51个序列进行了密集的注释,可以系统地研究工业领域中人-物互动。提供了与人-物互动相关的四项任务的基准测试。
完成下面两步后,将自动完成登录并继续当前操作。