通过预训练视觉语言模型从像素中发明谓词

📝

内容提要

本研究解决了在复杂的机器人领域中,如何从原始图像传感器输入中学习长期决策的问题。我们提出了一种新颖的方法,通过利用预训练的视觉语言模型(VLMs),直接从输入图像中发明语义上有意义的谓词,从而推动决策过程。实验证明,我们的方法能够有效地发明有助于在多个模拟环境中推广新任务的谓词。

🏷️

标签

➡️

继续阅读