基于提示的上下文和领域感知预训练:视觉与语言导航

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文介绍了一种名为PANDA的预训练框架,用于解决预训练视觉语言模型在视觉和语言导航任务中的领域差异和交叉模态对齐的问题。通过对比学习,PANDA在R2R和REVERIE任务上取得了优于之前方法的结果。

🎯

关键要点

  • 提出了一种名为PANDA的预训练框架。
  • PANDA旨在解决视觉语言模型在视觉和语言导航任务中的领域差异和交叉模态对齐问题。
  • 通过对比学习进一步优化预训练模型。
  • 实验结果显示,PANDA在R2R和REVERIE任务上优于之前的最先进方法。
➡️

继续阅读