通过视觉语言集成实现零样本人 - 物体交互检测

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究提出了名为KI2HOI的新型框架,用于改进零样本人物-物体交互检测。通过动词提取解码器和视觉语义的动词特征学习模块,生成更全面的视觉表示。利用CLIP文本编码器的先验知识,为增强交互理解初始化线性分类器。实验证明,该模型在各种零样本和全监督设置上优于以前的方法。

🎯

关键要点

  • 本研究提出了名为KI2HOI的新型框架,用于改进零样本人物-物体交互检测。
  • 框架通过动词提取解码器将动词查询转换为特定交互类别的表示形式。
  • 设计了基于视觉语义的动词特征学习模块,以生成更全面的视觉表示。
  • 采用有效的加性自注意机制来增强视觉表示的质量。
  • 创新的交互表示解码器通过交叉注意机制提取信息丰富的区域。
  • 利用CLIP文本编码器的先验知识初始化线性分类器,以增强交互理解。
  • 在HICO-DET和V-COCO数据集上的实验证明,该模型在零样本和全监督设置上优于以前的方法。
➡️

继续阅读