基于大型语言模型的自动卫星图像描述生成

原文约500字,阅读约需2分钟。发表于:

自动遥感图像字幕生成技术与大规模数据集、大型语言模型、遥感技术和基准模型等相关,能够解决遥感图像字幕生成领域的瓶颈问题。

本研究构建了一个高质量的远程感知图像字幕数据集(RSICap),包括 2,585 个人工注释的字幕,为每个图像提供了详细的描述,包括场景描述和对象信息。此外,还提供了一个基准评估数据集 RSIEval,可以全面评估在 RS 背景下的视觉语言模型。

相关推荐 去reddit讨论