长视频中高效的视频识别:在移动时观察
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文重新审视了视频预测中的分层模型,通过先估计语义结构序列,再通过视频到视频的转换将结构转化为像素。通过在汽车驾驶和人类舞蹈等三个数据集上的评估,证明了我们的方法能够在非常长的时间范围内生成复杂的场景结构和运动,并且取得了比现有方法长几数量级的预测时间。
🎯
关键要点
-
本文重新审视了视频预测中的分层模型。
-
通过先估计语义结构序列,再通过视频到视频的转换将结构转化为像素。
-
使用随机循环估算器模拟离散语义结构空间中的结构及其动态进行长期预测。
-
在汽车驾驶和人类舞蹈等三个数据集上的评估证明了方法的有效性。
-
该方法能够在非常长的时间范围内生成复杂的场景结构和运动。
-
取得了比现有方法长几数量级的预测时间。
➡️