本文介绍了一种基于视觉交互网络的模型,能够从视觉数据中学习物理系统的动态,支持基于模型的决策和规划。该模型结合卷积神经网络和交互网络,能从少量视频帧中准确预测未来轨迹,尤其在复杂场景中表现优越,具有良好的泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。