利用地理空间基础模型的多光谱遥感图像检索
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该研究提出了一种无需文本注释的基于视觉语言模型训练遥感图像的方法。通过互联网图像作为中介,训练了遥感图像的编码器与CLIP的编码器对齐。该方法能够训练一种新型的大规模遥感图像视觉语言模型(VLM),在零样本、开放词汇的图像分类、检索、分割和视觉问答任务中表现出优异能力。该无需文本注释的VLM在各个任务方面都优于现有有监督训练的VLM。
🎯
关键要点
- 提出了一种无需文本注释的基于视觉语言模型训练遥感图像的方法。
- 使用互联网图像作为遥感图像和语言之间的中介。
- 通过配对互联网和卫星图像训练遥感图像的编码器与CLIP的编码器对齐。
- 无监督方法能够训练新型的大规模遥感图像视觉语言模型(VLM)。
- 该VLM适用于两种不同分辨率的遥感图像。
- 在零样本、开放词汇的图像分类、检索、分割和视觉问答任务中表现出优异能力。
- 无需文本注释的VLM在各个任务方面优于现有有监督训练的VLM,分类任务提升20%,分割任务提升80%。
➡️