DKPROMPT:领域知识引导视觉 - 语言模型进行开放世界规划
原文中文,约600字,阅读约需2分钟。发表于: 。本研究提出了一种名为 DKPROMPT 的新型任务规划与执行框架,通过在 PDDL 中使用领域知识自动化 VLM 提示,实现在开放世界中进行经典规划,结果显示 DKPROMPT 在任务完成率方面优于传统规划、纯 VLM 和其他几个竞争基线。
大规模视觉语言模型(VLMs)在自然视觉任务中表现出色,推动跨领域的研究者探索特定领域的 VLMs。广义领域提示学习(GDPL)框架通过小规模的特定领域基础模型和最少的提示样本,使 VLMs 的强大识别能力从自然视觉转移到特定领域,无需大量数据或资源。实验证明 GDPL 在不同领域的有效性,并展示了在提示学习范式下实现最先进的领域识别性能的能力。