该研究提出了一种无需文本注释的遥感图像训练方法,利用互联网图像作为中介,通过训练图像编码器对齐,实现了大规模遥感图像视觉语言模型的无监督训练。该模型在零样本分类、图像检索、分割和视觉问答任务中表现优于有监督训练的模型,分类任务提升了20%,分割任务提升了80%。
完成下面两步后,将自动完成登录并继续当前操作。