不再看不见:解锁CLIP在生成零-shot人机交互检测中的潜力
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了零-shot人机交互检测中模型在已见和未见类别之间的混淆问题。提出了一种新的基于生成的模型HOIGen,利用CLIP进行特征生成,以同时训练已见和未见类别。实验结果表明,HOIGen在各种零-shot设置下展现出优于其他最先进方法的性能。
我们开发了一种名为MP-HOI的多模态基于提示的HOI检测器,能够利用文本描述进行开集通用化,并通过处理描述中的高歧义,实现对开放世界中的HOI的检测。MP-HOI通过统一的对比损失将HOI任务优化为多模态提示和对象/交互之间的相似度学习过程,以学习可推广和可传递的对象/交互表示。MP-HOI词汇量超过现有专家模型的30倍以上,具有卓越的零样本能力,并在各种基准测试中达到新的最先进性能。