人物 - 物体交互检测的解耦预训练
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了名为KI2HOI的新型框架,用于改进零样本人物-物体交互检测。通过动词提取解码器和视觉语义的动词特征学习模块,生成更全面的视觉表示。利用CLIP文本编码器的先验知识,为增强交互理解初始化线性分类器。实验证明,该模型在各种零样本和全监督设置上优于以前的方法。
🎯
关键要点
- 本研究提出了名为KI2HOI的新型框架,用于改进零样本人物-物体交互检测。
- 框架通过动词提取解码器将动词查询转换为特定交互类别的表示形式。
- 设计了基于视觉语义的动词特征学习模块,以生成更全面的视觉表示。
- 采用加性自注意机制和交叉注意机制来提取信息丰富的区域。
- 利用CLIP文本编码器的先验知识初始化线性分类器,以增强交互理解。
- 在HICO-DET和V-COCO数据集上的实验表明,该模型在零样本和全监督设置上优于以前的方法。
🏷️
标签
➡️