通过填补领域差距来检测稀有的人 - 物交互的即插即用方法
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了名为KI2HOI的新型框架,用于改进零样本人物-物体交互检测。通过动词提取解码器和视觉语义的动词特征学习模块,生成更全面的视觉表示。实验证明该模型优于以前的方法。
🎯
关键要点
- 本研究提出了名为KI2HOI的新型框架,用于改进零样本人物-物体交互检测。
- 框架有效整合视觉语言模型的知识。
- 采用动词提取解码器将动词查询转换为特定交互类别的表示形式。
- 设计了基于视觉语义的动词特征学习模块,生成更全面的视觉表示。
- 创新的交互表示解码器通过交叉注意机制提取信息丰富的区域。
- 利用CLIP文本编码器的先验知识,增强交互理解并初始化线性分类器。
- 在HICO-DET和V-COCO数据集上的实验表明,该模型优于以前的方法。
➡️