小红花·文摘

本研究构建了一个高质量的远程感知图像字幕数据集（RSICap），包括 2,585 个人工注释的字幕，为每个图像提供了详细的描述，包括场景描述和对象信息。此外，还提供了一个基准评估数据集 RSIEval，可以全面评估在 RS 背景下的视觉语言模型。