本文提出了一种基于局部时空分离的Transformer块,用于视频未来帧预测,并构建了全自回归和非自回归视频预测Transformer框架。同时,引入对比特征损失来监督模型预测过程。该模型在性能上与更复杂的现有模型竞争力相当。
完成下面两步后,将自动完成登录并继续当前操作。