该研究聚焦于人-物交互检测,提出了解耦三元组预测和Disentangled Transformer等新方法,显著提升了HICO-DET和V-COCO数据集上的检测性能。通过结合强弱监督数据和视觉语言模型,研究有效解决了样本不均衡问题,并在零样本学习中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。