本研究构建了多模态大语言模型LHRS-Bot,专注于遥感图像理解,利用高质量数据集RSICap和HqDC-1.4M,提升模型的空间感知和生成能力。通过对比性预训练,RS-CapRet实现了图像字幕生成和文本-图像检索,展示了在遥感领域的强大性能。
完成下面两步后,将自动完成登录并继续当前操作。