本研究提出了一种基于全序列级别的特征聚合方法(SELSA),用于视频目标检测。该方法在 ImageNet VID 和 EPIC KITCHENS 数据集上取得了最先进的结果。
完成下面两步后,将自动完成登录并继续当前操作。