关于人类-物体交互的分析:在仅有测试集而无训练集的情况下,使用无训练方法的多模态视觉基础模型
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
我们开发了一种名为MP-HOI的多模态基于提示的HOI检测器,能够利用文本描述进行开集通用化,并通过处理描述中的高歧义,实现对开放世界中的HOI的检测。MP-HOI通过统一的对比损失将HOI任务优化为多模态提示和对象/交互之间的相似度学习过程,以学习可推广和可传递的对象/交互表示。MP-HOI词汇量超过现有专家模型的30倍以上。在真实世界的场景中,MP-HOI表现出卓越的零样本能力,并在各种基准测试中达到新的最先进性能。
🎯
关键要点
- 开发了一种名为MP-HOI的多模态基于提示的HOI检测器。
- MP-HOI能够利用文本描述进行开集通用化,处理高歧义以检测开放世界中的HOI。
- 构建了名为Magic-HOI的大规模HOI数据集,促进MP-HOI的训练。
- 提供了包含100K图像的高质量合成HOI数据集SynHOI。
- MP-HOI通过统一的对比损失优化HOI任务,实现多模态提示和对象/交互之间的相似度学习。
- MP-HOI的词汇量超过现有专家模型的30倍以上。
- 在真实世界场景中,MP-HOI表现出卓越的零样本能力。
- MP-HOI在各种基准测试中达到新的最先进性能。
➡️