本研究提出了一种新颖的词汇多义性辨析网络(PD-Net),用于人-物互动检测,并构建了新的基准数据集。通过分析动词的视觉多义性,该方法在多个数据库上表现优异。此外,研究开发了基于对象的跨模态校准网络(OCN)和多模态提示的HOI检测器(MP-HOI),实现了更高的准确性和开放世界的交互识别能力。实验结果显示,所提方法在多个基准测试中均取得了最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。