本文研究短期对象交互预测(STA),提出了多模态端到端变压器网络NAOGAT。该模型通过处理观察到的帧,预测下一个活跃对象及其未来动作,结合注意力机制和时空特征,在EGO4D数据集上显著提高了预测准确性。此外,研究引入了环境适应性模型和交互热点预测模块,增强了预测的可信度。
完成下面两步后,将自动完成登录并继续当前操作。