本研究通过引入伪运动生成器(PMG)模块,解决了视频变换器预训练中的数据收集成本、隐私及偏见问题。实验结果显示,该方法有效增强了时空特征的学习,超越了现有静态图像的方法,并在一定程度上超越了使用真实和合成视频的方法。
本研究探讨了物理属性和背景特征对视频变换器在遮挡下的轨迹预测任务中的性能影响,并提出了一种基于通用视频变换器的网络 Video Occlusion Transformer (VOT),在数据集中平均精度达到96%。研究发现物理属性和背景特征对模型性能有影响,大型变换器模型在单个任务中存在数据饱和点。
完成下面两步后,将自动完成登录并继续当前操作。