以视频为新语言进行现实世界决策

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文提出了一种用于无监督特征学习的视频数据的强基线模型,通过学习预测输入视频序列中缺少的帧或外推未来帧,该模型发现了对于表示复杂变形和运动模式有用的空间和时间相关性,并且是借鉴语言建模文献,通过将图像补丁的空间量化为一个大字典,适应了视觉领域。我们在填充和生成任务上演示了该方法。第一次,我们展示了在自然视频上训练后,这样一个模型可以预测短视频序列中的非平凡运动。

🎯

关键要点

  • 提出了一种用于无监督特征学习的视频数据的强基线模型。

  • 模型通过学习预测输入视频序列中缺少的帧或外推未来帧,发现空间和时间相关性。

  • 借鉴语言建模文献,将图像补丁的空间量化为一个大字典,适应视觉领域。

  • 在填充和生成任务上演示了该方法。

  • 模型可以预测短视频序列中的非平凡运动。

➡️

继续阅读