考虑长期运动趋势的视频预测的状态空间分解模型

通过自适应分解的方法，我们提出了一种状态空间分解的随机视频预测模型，将整体视频帧生成分解为确定性外观预测和随机运动预测，从而增强模型对动态场景的泛化能力。实验结果表明，我们的模型在多个数据集上优于基线模型。

本文重新审视了视频预测中的分层模型，通过先估计语义结构序列，再通过视频到视频的转换将结构转化为像素。通过在汽车驾驶和人类舞蹈等三个数据集上的评估，证明了该方法能够在非常长的时间范围内生成复杂的场景结构和运动，并且取得了比现有方法长几数量级的预测时间。