本文提出了一种新颖的视觉-时间上下文提示方法,旨在解决视觉语言模型在开放世界环境中的决策挑战。该方法利用物体分割信息,帮助低级策略基于视觉观察进行预测,有效应对复杂任务的空间理解问题。
完成下面两步后,将自动完成登录并继续当前操作。