本研究提出了名为KI2HOI的新型框架,用于改进零样本人物-物体交互检测。通过动词提取解码器和视觉语义的动词特征学习模块,生成更全面的视觉表示。实验证明该模型优于以前的方法。
该论文提出了三个用于生成图像中人类中心视觉线索的提示,并结合多人多视角生成丰富的人类中心视觉线索,用于人物-物体交互检测。实验证明了利用这些生成的人类中心视觉线索进行交互检测的有效性,并在两个广泛使用的数据集上展示了该模型优于现有最先进方法的结果。
本文介绍了RmLR系统框架,通过分析相互作用信息的损失生成全面的视觉表示,提高人物-物体交互检测性能。通过句子-词级对齐和知识传递策略解决多个交互和多个文本匹配问题,进一步提高交互理解。实验结果表明该方法在公共基准测试上表现出最先进的性能,并分析了各个组成部分对效果的影响。
通过结构化文本知识,提出了一个系统且统一的框架(RmLR)来提高人物-物体交互检测。通过分析相互作用信息的损失并生成更全面的视觉表示,设计了更精细的句子-词级对齐和知识传递策略,有效解决多个交互和多个文本之间的匹配问题,提高了对交互的理解。实验结果表明该方法在公共基准测试上实现了最先进的性能,并进一步分析了各个组成部分对效果的影响,为其功效提供了洞察。
完成下面两步后,将自动完成登录并继续当前操作。