小红花·文摘

本文介绍了一种名为MP-HOI的多模态人-物交互检测器，能够通过文本描述进行开放世界中的交互检测。研究构建了Magic-HOI数据集和高质量合成数据集SynHOI，以优化检测性能。MP-HOI在多个基准测试中表现优异，具备强大的零样本能力，并在HICO-DET和V-COCO数据集上超越现有方法。