本文介绍了MiniVLM和MobileVLM等视觉-语言模型的进展。MiniVLM通过高效特征提取器和MiniLM结构,显著减少了模型大小和推理时间,同时保持高准确率。MobileVLM专为移动设备设计,性能与大型模型相当。此外,研究构建了高质量遥感图像数据集HqDC-1.4M,提升了模型的空间感知能力,并提出了H2RSVLM模型,增强了模型的真实性和可靠性。
该研究构建了包含 1.4 百万图像 - 字幕对的大规模高质量细节遥感图像数据集 HqDC-1.4M,提供了对遥感图像更好的理解并显著提高了模型的空间感知能力;同时,开发了 RSSA 数据集,通过将无法回答的问题纳入典型的遥感视觉问答任务中,有效改善了模型输出的真实性和幻觉现象,增强了遥感视觉语言模型的诚实度;基于这些数据集,提出了...
完成下面两步后,将自动完成登录并继续当前操作。