本文介绍了一种名为STAformer的新型架构,用于短期物体交互预测。该架构结合了注意力机制、时间池化和特征融合等技术,能够准确预测用户的目标。实验结果显示,在不同数据集上,STAformer的性能都有显著提升。作者将在未来公开代码和数据集,以促进该领域的研究。
通过 STAformer 模型,结合基于注意力的架构、时间池化、图像 - 视频注意力以及多尺度特征融合等方法,可以从图像输入视频对中预测短期物体交互的位置、名词和动词类别,以及与观察到的双眼视角视频相关的接触时间。此外,通过模拟适应性,提供两个新模块来支持 STA 预测,分别是对物体运动轨迹和手部观察的交互热点预测,并在热点周围提高 STA 预测的可信度。
该报告介绍了团队在CVPR2024的Ego4D Looking At Me挑战中的解决方案,使用InternLSTM提取特征判断人是否面向佩戴摄像头的摄像机,采用Gaze Smoothing滤波器消除噪音或波动。在挑战中获得第一名,mAP为0.81,准确率为0.93。
本报告提出了一种基于引导注意力机制的解决方案来解决EGO4D短期预测挑战。该方案结合了物体检测和时空特征提取,增强了运动和上下文信息,并解码物体中心和运动中心的信息。在验证集和测试集上,该模型表现出更好的性能和最佳成绩。
本文介绍了基于Ego4D的RefEgo数据集,包含12k个视频剪辑和41小时的引用表达理解批注。通过结合最先进的2D引用表达理解模型和对象跟踪算法,实现了困难条件下的视频对象跟踪。
本技术报告提出了一种基于引导注意力机制的解决方案来解决EGO4D短期预测挑战。该解决方案结合了物体检测和时空特征提取,增强了运动和上下文信息,并解码物体中心和运动中心的信息。在快速网络上应用引导关注力,构建了模型,在验证集和测试集上获得了更好的性能和最佳成绩。
完成下面两步后,将自动完成登录并继续当前操作。