从视觉语言模型中提炼,以改善视觉任务中的 OOD 泛化能力
原文中文,约200字,阅读约需1分钟。发表于: 。Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language modalities to distill pre-trained features and superior generalization for...
本文介绍了利用预训练的视觉语言模型(VLMs)来监督具有目的地行动的体验型智能体,让其学会与不同类别的对象交互。通过少量提示和后见之明体验回放(HER)技术,可以使智能体学习抽象类别的成员资格和特定任务相关的语境,同时完成语言建模。