小红花·文摘

本研究探讨了物理属性和背景特征对视频变换器在遮挡下的轨迹预测任务中的性能影响，并提出了一种基于通用视频变换器的网络 Video Occlusion Transformer (VOT)，在数据集中平均精度达到96%。研究发现物理属性和背景特征对模型性能有影响，大型变换器模型在单个任务中存在数据饱和点。