DAP:面向领域感知的视觉与语言导航提示学习

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

通过引入低成本提示调整范式来学习特定领域视觉提示,提出了一种新颖且模型无关的领域感知提示学习(DAP)框架,以在VLN任务中为预训练模型提供特定对象级和场景级跨模态对齐,并将领域内视觉知识以高效的方式注入预训练模型的视觉编码器。实验结果显示,DAP相比现有的最先进方法具有明显的优势。

🎯

关键要点

  • 引入低成本提示调整范式来学习特定领域视觉提示。
  • 提出了一种新颖且模型无关的领域感知提示学习(DAP)框架。
  • DAP框架在VLN任务中为预训练模型提供特定对象级和场景级跨模态对齐。
  • 高效地将领域内视觉知识注入预训练模型的视觉编码器。
  • 在R2R和REVERIE上的实验结果显示,DAP相比现有的最先进方法具有明显的优势。
➡️

继续阅读