短期物体交互预期的可供性和注意力模型
原文中文,约600字,阅读约需2分钟。发表于: 。短期物体交互预测通过检测下一个活动物体的位置、交互的名词和动词类别以及从自我中心视频观察中计算接触时间,对于可穿戴助手或人机交互理解用户目标至关重要。本文提出了 STAformer,一种新的基于注意力机制的架构,将帧引导的时间池化、双重图像 - 视频注意力和多尺度特征融合集成在一起,以支持从图像输入的视频对中进行 STA 预测。我们引入了两个新模块来通过建模适应能力来确定 STA...
本文介绍了一种新的基于注意力机制的架构STAformer,用于短期物体交互预测。该架构结合了帧引导的时间池化、双重图像-视频注意力和多尺度特征融合,以支持从图像输入的视频对中进行STA预测。实验结果显示,在Ego4D和EPIC-Kitchens上的性能都有显著提升。