Aquila-plus:基于提示的像素级遥感图像理解视觉语言模型
发表于: 。本研究针对现有遥感视觉语言模型主要集中在图像级或帧级理解的问题,通过提出一种名为Aquila-plus的掩码文本指令微调方法,实现了像素级的视觉语言对齐。研究成果表明,Aquila-plus在像素级指令微调方面表现优异,显著提升了区域理解任务的效果。
本研究针对现有遥感视觉语言模型主要集中在图像级或帧级理解的问题,通过提出一种名为Aquila-plus的掩码文本指令微调方法,实现了像素级的视觉语言对齐。研究成果表明,Aquila-plus在像素级指令微调方面表现优异,显著提升了区域理解任务的效果。