本研究探讨了通用深度神经网络模型在自然视频中预测遮挡区域的物理理解。模型通过联合学习抽象表示,有效理解物体的持久性和形状一致性,经过一周训练后表现超越偶然,挑战传统观念。
本文提出了一种用于无监督特征学习的视频数据的强基线模型,通过学习预测输入视频序列中缺少的帧或外推未来帧,该模型发现了对于表示复杂变形和运动模式有用的空间和时间相关性,并且是借鉴语言建模文献,通过将图像补丁的空间量化为一个大字典,适应了视觉领域。我们在填充和生成任务上演示了该方法。第一次,我们展示了在自然视频上训练后,这样一个模型可以预测短视频序列中的非平凡运动。
研究人员提出了一个学习人类3D动力学表示的框架,通过图像特征时间编码预测3D网格。模型可以恢复当前和过去的3D运动,并从自然视频中学习。通过模型训练,证明了其在三维动作预测任务中的性能。
完成下面两步后,将自动完成登录并继续当前操作。