在没有人工标注的情况下推动视觉-语言模型在遥感中的极限
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
大规模语言模型推动人工智能发展,远程感知领域对视觉语言模型感兴趣。研究构建高质量远程感知图像字幕数据集,促进视觉语言模型发展。提供基准评估数据集,全面评估远程感知背景下的视觉语言模型。
🎯
关键要点
- 大规模语言模型推动人工智能快速发展,开启人工智能2.0革命。
- 远程感知领域对开发视觉语言模型的兴趣日益增加。
- 当前研究主要集中在视觉识别任务,缺乏适用于训练视觉语言模型的大规模图像-文本数据集。
- 本研究构建了高质量的远程感知图像字幕数据集(RSICap),促进视觉语言模型发展。
- RSICap包含2,585个人工注释的字幕,提供丰富的场景和对象信息。
- 为评估视觉语言模型,提供基准评估数据集RSIEval,包括人工注释的字幕和视觉问答对。
➡️