小红花·文摘

本文提出了一种基于局部时空分离的Transformer块，用于视频未来帧预测，并构建了全自回归和非自回归视频预测Transformer框架。同时，引入对比特征损失来监督模型预测过程。该模型在性能上与更复杂的现有模型竞争力相当。