从类别到风景:一个用于视频中多人人物 - 物体交互识别的端到端框架

💡 原文中文,约1300字,阅读约需3分钟。
📝

内容提要

本文提出了多种基于场景图信息的人-物交互检测方法,包括利用几何特征的图卷积网络、时空变换器和级联架构等。这些方法显著提高了识别准确率,并在多个数据集上验证了其有效性,推动了人-物交互识别的研究进展。

🎯

关键要点

  • 提出了一种利用场景图信息进行人-物交互检测的新方法,表现优于现有方法。
  • 基于几何特征的图卷积网络显著提高了多人和多物体情况下的识别准确率,并构建了新的数据集MPHOI-72。
  • 设计了时空变换器框架,融合人类注视信息和场景背景进行视频中的人-物交互检测。
  • 基于级联架构的方法实现了实例定位和交互识别,极佳的关系建模表现。
  • 通过双图注意力网络聚合环境视觉、空间和语义信息,实现强大的消岐能力。
  • 以Transformer架构为基础的模型SG2HOI+同时实现场景图生成和人物对象互动检测,显著提升性能。
  • 探索基于人体姿态和注视等因素的社交场景人-物相互作用识别方法,提出硬负样本采样策略。
  • 交互图模型有效推断人类与物体的相互作用,实验证明在基准测试中表现优于现有方法。
  • 基于异构图网络的目标与人交互检测方法,强调内部关系和跨类别信息的重要性。

延伸问答

什么是SG2HOI检测方法?

SG2HOI检测方法是一种利用场景图信息进行人-物交互检测的新方法,表现优于现有的检测方法。

MPHOI-72数据集有什么特点?

MPHOI-72数据集是一个新的多人人-物交互数据集,结合了人体姿态和物体位置等几何要素,显著提高了识别准确率。

时空变换器在视频人-物交互检测中如何应用?

时空变换器通过融合人类注视信息、场景背景和人-物对的视觉外观特征,来检测和预测视频中的人-物交互。

交互图模型的主要功能是什么?

交互图模型用于推断人类与周围物体的相互作用,能够有效利用视觉目标间的交互语义。

基于级联架构的方法如何实现交互识别?

基于级联架构的方法通过实例定位和交互识别两个阶段,结合关系排名和三元流分类器,实现了极佳的关系建模表现。

异构图网络在目标与人交互检测中的重要性是什么?

异构图网络强调内部关系和跨类别信息的重要性,利用图注意力机制提升学习效果,增强目标与人交互检测的有效性。

➡️

继续阅读