通过填补领域差距来检测稀有的人 - 物交互的即插即用方法

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了名为KI2HOI的新型框架,用于改进零样本人物-物体交互检测。通过动词提取解码器和视觉语义的动词特征学习模块,生成更全面的视觉表示。实验证明该模型优于以前的方法。

🎯

关键要点

  • 本研究提出了名为KI2HOI的新型框架,用于改进零样本人物-物体交互检测。
  • 框架有效整合视觉语言模型的知识。
  • 采用动词提取解码器将动词查询转换为特定交互类别的表示形式。
  • 设计了基于视觉语义的动词特征学习模块,生成更全面的视觉表示。
  • 创新的交互表示解码器通过交叉注意机制提取信息丰富的区域。
  • 利用CLIP文本编码器的先验知识,增强交互理解并初始化线性分类器。
  • 在HICO-DET和V-COCO数据集上的实验表明,该模型优于以前的方法。
➡️

继续阅读