本文介绍了一种名为STAformer的新型架构,用于短期物体交互预测。该架构结合了注意力机制、时间池化和特征融合等技术,能够准确预测用户的目标。实验结果显示,在不同数据集上,STAformer的性能都有显著提升。作者将在未来公开代码和数据集,以促进该领域的研究。
本文介绍了一种新的基于注意力机制的架构STAformer,用于短期物体交互预测。该架构结合了帧引导的时间池化、双重图像-视频注意力和多尺度特征融合,以支持从图像输入的视频对中进行STA预测。实验结果显示,在Ego4D和EPIC-Kitchens上的性能都有显著提升。
完成下面两步后,将自动完成登录并继续当前操作。