提出了一种新的端到端类到场景框架 (CATS),通过生成几何特征和视觉特征融合构建场景交互图,学习人与物体类别关系。在两个关键的人物-物体交互基准测试中展示了最先进的性能。
通过可视化和实验研究改进了DETR框架在人物-物体交互研究中的问题,增强了图像特征,改进了模型的谓词视觉上下文。在HICO-DET和V-COCO基准上超过了最先进的方法,同时保持了较低的训练成本。
完成下面两步后,将自动完成登录并继续当前操作。