短期物体交互预期的可供性和注意力模型

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

本文介绍了一种新的基于注意力机制的架构STAformer,用于短期物体交互预测。该架构结合了帧引导的时间池化、双重图像-视频注意力和多尺度特征融合,以支持从图像输入的视频对中进行STA预测。实验结果显示,在Ego4D和EPIC-Kitchens上的性能都有显著提升。

🎯

关键要点

  • 本文介绍了一种新的基于注意力机制的架构STAformer,用于短期物体交互预测。
  • 短期物体交互预测对于可穿戴助手或人机交互理解用户目标至关重要。
  • STAformer结合了帧引导的时间池化、双重图像-视频注意力和多尺度特征融合。
  • 引入了两个新模块:环境适应性模型和交互热点预测模型。
  • 环境适应性模型用于建模在特定物理场景中可能发生的交互的持久性记忆。
  • 交互热点预测模型通过观察手部和物体轨迹来增加STA预测的置信度。
  • 实验结果显示,Ego4D上的整体Top-5 mAP提高了45%,EPIC-Kitchens上的改进为42%。
  • 将发布代码、注释和预先提取的适应能力,以鼓励未来研究。
➡️

继续阅读