通过填补领域差距来检测稀有的人 - 物交互的即插即用方法

💡 原文中文,约1500字,阅读约需4分钟。
📝

内容提要

本文提出了一种基于transformer的特征提取器KI2HOI,改进了零样本人物-物体交互检测。通过动词提取解码器和视觉语义模块,该模型在HICO-DET和V-COCO数据集上表现优异。同时,采用虚拟图像学习和功能相似性方法,解决了类别不平衡问题,显著提升了检测精度。

🎯

关键要点

  • 提出了一种基于transformer的特征提取器KI2HOI,改进了零样本人物-物体交互检测。
  • 通过动词提取解码器和视觉语义模块,该模型在HICO-DET和V-COCO数据集上表现优异。
  • 采用虚拟图像学习方法解决类别不平衡问题,显著提升了检测精度。
  • 利用CLIP文本编码器的先验知识增强交互理解,初始化线性分类器。
  • 基于人与物体功能相似性的方法在HOI数据集上实现了2.5%的平均精度增益。

延伸问答

KI2HOI模型的主要创新点是什么?

KI2HOI模型通过动词提取解码器和视觉语义模块,改进了零样本人物-物体交互检测,能够有效整合视觉语言模型的知识。

如何解决人-物交互检测中的类别不平衡问题?

通过虚拟图像学习方法,结合虚拟图像和真实图像训练模型,构建伪标签,从而解决类别分布不平衡的问题。

KI2HOI在HICO-DET和V-COCO数据集上的表现如何?

KI2HOI在HICO-DET和V-COCO数据集上表现优异,超越了以前的方法,尤其在零样本和全监督设置上。

CLIP文本编码器在KI2HOI中起什么作用?

CLIP文本编码器提供先验知识,增强交互理解,并用于初始化线性分类器,以支持零样本学习。

基于人与物体功能相似性的方法有什么效果?

该方法在HOI数据集上实现了2.5%的平均精度增益,提升了零样本HOI检测的效果。

KI2HOI模型的特征提取机制是怎样的?

KI2HOI模型采用关注机制和基于查询的检测,避免特征混合,有效提取上下文重要特征。

➡️

继续阅读