基于 Transformer 的人物 - 对象交互检测中的组合学习
原文中文,约300字,阅读约需1分钟。发表于: 。人物 - 物体互动(HOI)检测是理解人类活动和视觉场景的重要组成部分。本研究通过引入 transformer-based 框架,重新组合不同 HOI 实例中的人物 - 物体对表示和互动表示,从而获得更丰富的上下文信息,提高知识的泛化能力,并实现一种简单而有效的方法,其在稀有 HOI 类别上表现出卓越的性能。
通过结构化文本知识,提出了一个系统且统一的框架(RmLR)来提高人物-物体交互检测。通过分析相互作用信息的损失并生成更全面的视觉表示,设计了更精细的句子-词级对齐和知识传递策略,有效解决多个交互和多个文本之间的匹配问题,提高了对交互的理解。实验结果表明该方法在公共基准测试上实现了最先进的性能,并进一步分析了各个组成部分对效果的影响,为其功效提供了洞察。