基于Transformer的方法在人物与物体的交互检测任务中取得了进展,但忽略了人物、物体和交互之间的关系。研究者提出了人物与物体解耦网络(HODN)来明确建模交互关系,并在V-COCO和HICO-Det数据集上取得了竞争性的性能。该方法可以与现有方法结合以获得最新的结果。
通过可视化和实验研究改进了DETR框架在人物-物体交互研究中的问题,增强了图像特征,改进了模型的谓词视觉上下文。在HICO-DET和V-COCO基准上超过了最先进的方法,同时保持了较低的训练成本。
完成下面两步后,将自动完成登录并继续当前操作。