本研究提出了名为KI2HOI的新型框架,用于改进零样本人物-物体交互检测。通过动词提取解码器和视觉语义的动词特征学习模块,生成更全面的视觉表示。利用CLIP文本编码器的先验知识,为增强交互理解初始化线性分类器。实验证明,该模型在各种零样本和全监督设置上优于以前的方法。
完成下面两步后,将自动完成登录并继续当前操作。