我们开发了一种名为MP-HOI的多模态基于提示的HOI检测器,能够利用文本描述进行开集通用化,并通过处理描述中的高歧义,实现对开放世界中的HOI的检测。MP-HOI通过统一的对比损失将HOI任务优化为多模态提示和对象/交互之间的相似度学习过程,以学习可推广和可传递的对象/交互表示。MP-HOI词汇量超过现有专家模型的30倍以上,具有卓越的零样本能力,并在各种基准测试中达到新的最先进性能。
我们开发了一种名为MP-HOI的多模态基于提示的HOI检测器,能够利用文本描述进行开集通用化,并通过处理描述中的高歧义,实现对开放世界中的HOI的检测。MP-HOI通过统一的对比损失将HOI任务优化为多模态提示和对象/交互之间的相似度学习过程,以学习可推广和可传递的对象/交互表示。MP-HOI词汇量超过现有专家模型的30倍以上。在真实世界的场景中,MP-HOI表现出卓越的零样本能力,并在各种基准测试中达到新的最先进性能。
我们开发了一种名为MP-HOI的多模态基于提示的HOI检测器,能够利用文本描述进行开集通用化,并通过处理描述中的高歧义,实现对开放世界中的HOI的检测。我们构建了一个名为Magic-HOI的大规模HOI数据集,用于促进MP-HOI的训练,并介绍了一个自动化流程来生成逼真的HOI图像,并提供了包含100K图像的高质量合成HOI数据集SynHOI。利用这两个数据集,MP-HOI通过统一的对比损失将HOI任务优化为多模态提示和对象/交互之间的相似度学习过程,以从大规模数据中学习可推广和可传递的对象/交互表示。MP-HOI可以作为HOI检测器的通用模型,其词汇量超过现有专家模型的30倍以上。与此同时,我们的结果表明,MP-HOI在真实世界的场景中表现出卓越的零样本能力,并在各种基准测试中始终达到新的最先进性能。
我们开发了一种名为MP-HOI的多模态基于提示的HOI检测器,能够利用文本描述进行开集通用化,并通过处理描述中的高歧义,实现对开放世界中的HOI的检测。MP-HOI通过统一的对比损失将HOI任务优化为多模态提示和对象/交互之间的相似度学习过程,以学习可推广和可传递的对象/交互表示。MP-HOI可以作为HOI检测器的通用模型,词汇量超过现有专家模型的30倍以上。同时,MP-HOI在真实世界的场景中表现出卓越的零样本能力,并在各种基准测试中始终达到新的最先进性能。
完成下面两步后,将自动完成登录并继续当前操作。