小红花·文摘

该研究提出了一种无需文本注释的遥感图像训练方法，利用互联网图像作为中介，通过训练图像编码器对齐，实现了大规模遥感图像视觉语言模型的无监督训练。该模型在零样本分类、图像检索、分割和视觉问答任务中表现优于有监督训练的模型，分类任务提升了20%，分割任务提升了80%。