小红花·文摘

本文介绍了利用预训练的视觉语言模型（VLMs）来监督具有目的地行动的体验型智能体，让其学会与不同类别的对象交互。通过少量提示和后见之明体验回放（HER）技术，可以使智能体学习抽象类别的成员资格和特定任务相关的语境，并完成语言建模。