该研究提出了一种无需文本注释的基于视觉语言模型训练遥感图像的方法。通过互联网图像作为中介,训练了遥感图像的编码器与CLIP的编码器对齐。该方法能够训练一种新型的大规模遥感图像视觉语言模型(VLM),在零样本、开放词汇的图像分类、检索、分割和视觉问答任务中表现出优异能力。该无需文本注释的VLM在各个任务方面都优于现有有监督训练的VLM。
完成下面两步后,将自动完成登录并继续当前操作。