本文提出了一种基于transformer的特征提取器KI2HOI,改进了零样本人物-物体交互检测。通过动词提取解码器和视觉语义模块,该模型在HICO-DET和V-COCO数据集上表现优异。同时,采用虚拟图像学习和功能相似性方法,解决了类别不平衡问题,显著提升了检测精度。
通过可视化和实验研究改进了DETR框架在人物-物体交互研究中的问题,增强了图像特征,改进了模型的谓词视觉上下文。在HICO-DET和V-COCO基准上超过了最先进的方法,同时保持了较低的训练成本。
完成下面两步后,将自动完成登录并继续当前操作。