基于先验指令的遥感图像 - 文本检索的图像表征学习

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该研究提出了一种无需文本注释的基于视觉语言模型训练遥感图像的方法。通过互联网图像作为中介,训练了遥感图像的编码器与CLIP的编码器对齐。该方法训练了一种新型的大规模遥感图像视觉语言模型(VLM),在零样本、开放词汇的图像分类、检索、分割和视觉问答任务中表现出优越性能。

🎯

关键要点

  • 提出了一种无需文本注释的基于视觉语言模型训练遥感图像的方法。
  • 使用互联网图像作为遥感图像和语言之间的中介。
  • 通过配对互联网和卫星图像训练遥感图像的图像编码器与CLIP的编码器对齐。
  • 无监督方法训练出新型的大规模遥感图像视觉语言模型(VLM)。
  • VLM适用于两种不同分辨率的遥感图像。
  • 在零样本、开放词汇的图像分类、检索、分割和视觉问答任务中表现优越。
  • 无需文本注释的VLM在各项任务中优于现有有监督训练的VLM,分类任务提升20%,分割任务提升80%。
➡️

继续阅读