从视觉语言模型中提炼,以改善视觉任务中的 OOD 泛化能力
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文介绍了利用预训练的视觉语言模型(VLMs)来监督具有目的地行动的体验型智能体,让其学会与不同类别的对象交互。通过少量提示和后见之明体验回放(HER)技术,可以使智能体学习抽象类别的成员资格和特定任务相关的语境,同时完成语言建模。
🎯
关键要点
- 提出了一种利用预训练的视觉语言模型(VLMs)来监督体验型智能体的新方法。
- 该方法旨在让智能体学会与不同类别的对象交互。
- 通过少量提示和后见之明体验回放(HER)技术,智能体可以学习抽象类别的成员资格。
- 智能体还可以学习与特定任务相关的语境。
- 该方法利用因特网规模的 VLMs 的通用语言基础完成语言建模。
➡️